外媒:华为的新AI CloudMatrix集群以蛮力击败了英伟达的GB200,使用了4倍的功率
在人工智能算力竞赛中,华为交出了一份令人瞩目的答卷。最新推出的AI CloudMatrix 384集群系统以惊人的硬件规模优势,在性能指标上超越了英伟达旗舰级GB200 NVL72解决方案。受制于先进制程工艺的获取限制,华为选择了一条"以量取胜"的技术路线——通过部署四倍于竞争对手的处理器数量,实现了可媲美甚至超越行业标杆的人工智能计算性能。
这一突破性成果源于华为的多维度技术创新:搭载双小芯片设计的海思Ascend 910C处理器、革命性的全光互连架构,以及专为大规模AI训练优化的华为CloudMatrix软件栈。尽管系统能效比仍落后英伟达方案2.3倍,但这一自主解决方案成功打破了技术封锁,使中国企业获得了训练尖端AI模型的能力。
技术架构解密
CloudMatrix 384堪称当代AI超级计算机的典范之作。该系统由384颗Ascend 910C加速器构成,通过全光交换网络形成全域对等连接。16个标准机架中,12个计算机架各容纳32颗处理器,另有4个网络机架部署了6,912个800G LPO光模块,构建起史无前例的高带宽互连体系。
与传统铜缆架构形成鲜明对比,CloudMatrix全面采用光纤传输技术,在机架内和跨机架通信层面均实现了突破性的带宽提升。作为企业级解决方案,该系统特别设计了容错机制和弹性扩展能力,满足商业场景的严苛要求。
性能表现解析
在核心计算指标上,CloudMatrix 384展现出碾压级优势:
- 提供约300 PFLOPs的密集BF16算力,较GB200 NVL72的180 PFLOPs高出67%
- HBM内存容量达49.2TB,是竞品的3.6倍
- 1229TB/s的内存带宽实现2.1倍领先
- 借助光互连技术,纵向扩展带宽提升2.1倍,横向扩展能力更达5.3倍
然而这种性能飞跃伴随着显著的能耗代价:系统总功耗达559千瓦,接近GB200的4倍。在能效关键指标上,每TFLOP算力功耗高出130%,每TB/s内存带宽能效低82%。
市场现实考量
在当前地缘政治背景下,中国科技企业难以获取英伟达最新加速器。这使得尽管存在能效劣势,CloudMatrix 384仍成为国内市场的最优选择。值得注意的是,中国相对低廉的电力成本(部分地区低至56美元/兆瓦时)大幅弱化了高功耗系统的运营成本压力。对于拥有充沛能源但受制于半导体先进制程的国家而言,华为开创的这条"规模换性能"技术路线,或许正是破局AI算力困境的最优解。