外媒：华为的新AI CloudMatrix集群以蛮力击败了英伟达的GB200，使用了4倍的功率

一把老骨头发布于 2025-5-16 08:05 阅读：95 科技新闻

在人工智能算力竞赛中，华为交出了一份令人瞩目的答卷。最新推出的AI CloudMatrix 384集群系统以惊人的硬件规模优势，在性能指标上超越了英伟达旗舰级GB200 NVL72解决方案。受制于先进制程工艺的获取限制，华为选择了一条"以量取胜"的技术路线——通过部署四倍于竞争对手的处理器数量，实现了可媲美甚至超越行业标杆的人工智能计算性能。

这一突破性成果源于华为的多维度技术创新：搭载双小芯片设计的海思Ascend 910C处理器、革命性的全光互连架构，以及专为大规模AI训练优化的华为CloudMatrix软件栈。尽管系统能效比仍落后英伟达方案2.3倍，但这一自主解决方案成功打破了技术封锁，使中国企业获得了训练尖端AI模型的能力。

技术架构解密
CloudMatrix 384堪称当代AI超级计算机的典范之作。该系统由384颗Ascend 910C加速器构成，通过全光交换网络形成全域对等连接。16个标准机架中，12个计算机架各容纳32颗处理器，另有4个网络机架部署了6,912个800G LPO光模块，构建起史无前例的高带宽互连体系。

与传统铜缆架构形成鲜明对比，CloudMatrix全面采用光纤传输技术，在机架内和跨机架通信层面均实现了突破性的带宽提升。作为企业级解决方案，该系统特别设计了容错机制和弹性扩展能力，满足商业场景的严苛要求。

性能表现解析
在核心计算指标上，CloudMatrix 384展现出碾压级优势：

提供约300 PFLOPs的密集BF16算力，较GB200 NVL72的180 PFLOPs高出67%
HBM内存容量达49.2TB，是竞品的3.6倍
1229TB/s的内存带宽实现2.1倍领先
借助光互连技术，纵向扩展带宽提升2.1倍，横向扩展能力更达5.3倍

然而这种性能飞跃伴随着显著的能耗代价：系统总功耗达559千瓦，接近GB200的4倍。在能效关键指标上，每TFLOP算力功耗高出130%，每TB/s内存带宽能效低82%。

市场现实考量
在当前地缘政治背景下，中国科技企业难以获取英伟达最新加速器。这使得尽管存在能效劣势，CloudMatrix 384仍成为国内市场的最优选择。值得注意的是，中国相对低廉的电力成本（部分地区低至56美元/兆瓦时）大幅弱化了高功耗系统的运营成本压力。对于拥有充沛能源但受制于半导体先进制程的国家而言，华为开创的这条"规模换性能"技术路线，或许正是破局AI算力困境的最优解。

原文地址：https://www.tomshardware.com/tech-industry/artificial-intelligence/huaweis-new-ai-cloudmatrix-cluster-beats-nvidias-gb200-by-brute-force-uses-4x-the-power

英伟达华为 AI 集群