华为昇腾384超节点亮相WAIC 2025,算力性能超越英伟达GB200

发布时间:2025-07-30 阅读量:5724 来源: 我爱方案网 作者: wenwei

【导读】2025年7月26日,世界人工智能大会(WAIC)在上海世博中心正式开幕。华为首次线下展出了昇腾384超节点(Atlas 900 A3 SuperPoD),该产品凭借创新的超节点架构和强大的算力表现,成为大会焦点。


13.jpg


超节点架构突破传统算力瓶颈


昇腾384超节点采用全对等(Peer-to-Peer)UB总线互联技术,将384颗昇腾NPU与192颗鲲鹏CPU通过无阻塞Clos架构连接,单跳时延低于200纳秒,带宽高达392GB/s,相比传统RoCE方案提升15倍。通过3168根光纤和6912个400G光模块实现百纳秒级互联,并支持2米以上长距部署,突破了铜缆传输的距离限制。


这一架构解决了传统AI集群中CPU与NPU通信效率低下的问题,使计算、存储等资源能够高效协同,让整个超节点集群像一台超级计算机一样运行。


性能表现超越国际竞品


在算力方面,昇腾384超节点单集群可提供300 PFLOPs的BF16稠密算力,约为英伟达GB200 NVL72的1.7倍。其能效比(MFU)从行业平均30%提升至45%以上,已成功应用于训练7180亿参数的盘古Ultra MoE大模型。


今年5月,华为在鲲鹏昇腾开发者大会上首次发布昇腾超节点(CloudMatrix 384),并实现业界最大规模的384卡高速互联。该方案具备超大带宽、超低时延和超强性能三大优势,适用于大模型训练和高吞吐推理场景。


云服务优化,助力AI规模化应用


华为云近期公布的测试数据显示,CloudMatrix 384超节点可实现单卡推理吞吐量2300 Tokens/s,并支持16万卡集群算力,万卡线性度高达95%。此外,该集群具备40天长稳训练能力和10分钟快速恢复能力,大幅提升了AI计算的稳定性和效率。


国际半导体分析机构SemiAnalysis在4月的报告中指出,华为CloudMatrix 384在内存容量、带宽及整体算力上均优于英伟达GB200 NVL72,标志着中国在AI基础设施领域取得重大突破。尽管单颗昇腾芯片性能约为英伟达Blackwell GPU的三分之一,但华为通过系统级优化,实现了集群算力的整体跃升。


中国AI算力生态加速崛起


华为昇腾384超节点的推出,不仅展示了中国在AI芯片和集群技术上的自主创新能力,也进一步推动了国产AI算力生态的发展。随着大模型训练需求的增长,高效、低能耗的算力解决方案将成为行业竞争的关键。


此次WAIC 2025的展示,印证了华为在AI计算领域的领先地位,同时也表明中国企业在全球AI基础设施竞争中已具备与国际巨头抗衡的实力。未来,昇腾AI生态的持续完善,或将为全球AI产业格局带来深远影响。


相关资讯
强强联合!英伟达50亿入股英特尔

英伟达投资50亿入股英特尔股票

​温补晶振(TCXO)核心技术解析:8大关键参数决定系统时序精度​

在高速通信、精准导航与精密测量等尖端领域,电子系统的时序架构对时钟信号稳定性的要求已近乎苛刻——其精度如同机械钟表的游丝摆轮,微小偏差便可能引发整个系统的时序紊乱,导致数据传输错误、定位偏移或测量失准。环境温度的波动一直是普通晶振频率稳定性的最大挑战,而温补晶振(Temperature Compensated Crystal Oscillator,简称TCXO)作为高精度时钟基准的核心器件,正是为解决这一核心问题而生。它凭借内置的“感知-计算-补偿”机制,在宽温环境下实现对频率的精准锁定,将温度变化引发的漂移压制在极低水平,成为高端电子系统中不可或缺的“时序锚点”。要真正理解并选型这一精密器件,就必须深入剖析其决定性能优劣的几个重要参数。

汽车BMS技术:动力电池的“智慧守护者”,全维度解密其核心优势与应用场景

本文将深入剖析汽车级BMS的核心技术优势及其广泛的关键应用场景

工业检测为何必须用工业相机?普通相机的四大核心短板解析

工业相机是根据工业检测的特殊需求进行深度优化与强化的专业设备

贸泽开售Renesas Electronics RA8P1微控制器 为先进AI提供高CPU性能

Renesas Electronics RA8P1微控制器可提供超过7,300 CoreMarks的CPU性能,以及在500 MHz时256 GOPS的AI性能