华为CloudMatrix 384横空出世：全光互联+3倍内存带宽，碾压英伟达GB200？

一把老骨头发布于 2025-4-23 08:02 阅读：242 科技新闻

华为CloudMatrix 384：中国AI算力的颠覆性突破

在全球AI算力竞赛中，华为最新发布的CloudMatrix 384（CM384）系统标志着中国在高端AI基础设施领域的重大突破。这一系统由384颗Ascend 910C芯片组成，采用全对全拓扑架构，直接对标英伟达GB200 NVL72，并在部分关键指标上实现超越。

性能与能效的权衡
CM384可提供300 PFLOPs的BF16算力，接近GB200 NVL72的两倍，同时内存容量和带宽分别提升3.6倍和2.1倍。然而，这一性能的代价是功耗：CM384的能效比英伟达方案低2.6倍，系统总功耗高出3.9倍。但华为通过独特的“全光互联”设计弥补了这一短板——系统采用100%光学器件，完全摒弃铜缆，并配备每芯片14个LPO（线性可插拔光学）收发器，显著提升了数据传输效率和可扩展性。

中国AI生态的独特优势
与西方不同，中国AI发展的核心瓶颈并非电力，而是硅基芯片的自主生产能力。中国拥有全球最庞大的电力基础设施（煤电主导，辅以风光水核），过去十年新增的发电量相当于整个美国电网规模。这使得华为能够以“牺牲能效换取算力密度”的策略，设计出更适合中国国情的AI解决方案。

供应链挑战与规避策略
尽管华为宣称Ascend 910C为“国产”，但其生产仍高度依赖全球供应链：

晶圆制造依赖台积电7nm工艺（通过第三方公司规避制裁）；
HBM内存由三星供应（通过封装拆解等技术手段绕过出口限制）；
关键设备来自美日荷企业。
不过，SMIC和CXMT的产能正在快速爬坡，若HBM和光刻胶等材料供应稳定，中国本土化生产潜力巨大。

系统架构的颠覆性创新

CM384的16机架集群中，12个为计算单元（每机架32颗GPU），4个为全光纵向扩展交换机。其核心创新在于：
全光纵向扩展：采用6,912个400G LPO收发器构建无铜缆互联，可靠性远超传统方案；
横向扩展能力：支持多集群级联，为超大规模AI训练预留空间。
这一设计与英伟达曾放弃的DGX H100 NVL256“游侠”概念类似，但华为通过光学技术优化将其变为现实。

未来挑战
华为需解决三大问题：
提升SMIC 7nm良率以摆脱台积电依赖；
加速CXMT HBM量产；
优化软件生态以释放硬件潜力。
若这些瓶颈突破，CM384或将成为中国对抗西方AI算力垄断的关键武器。

华为 CloudMatrix 384