GPU超节点对国产算力具有提升算力性能、突破物理限制、优化算力利用率、推动生态建设等重要作用。中国工程院院士刘韵洁接受媒体采访时曾表示,短时间内国内端点GPU仍无法与国外竞争,弥补短板的有效办法是建设算力网络“把整个算力练起来”,发挥GPU集群效果。
7月27日, 2025年世界人工智能大会在上海世博中心开幕,来自深圳两家ICT公司华为、中兴通讯分别展示了自身独创的,或者联合其他厂商打造的算力底座的旗舰产品。
作为中国自主的算力核弹,华为昇腾384超节点真机首次亮相。中兴通讯、上海仪电、曦智科技、壁仞科技联合打造的光互联芯片及超节点应用创新方案荣获2025年世界人工智能大会最高奖。本文将对这两款重点产品进行分析。
超越英伟达GB200 NVL72系统,华为昇腾384超节点整机首次亮相
在WAIC大会现场,这款号称镇馆之宝的华为昇腾384超节点整机前,聚集了来自全国各地,海外的参观者和工程师,这款整机算力高达300 PFLOPs,内存带宽1229TB/秒,网络带宽269TB/秒,算力是英伟达GB200 NVL72系统的2倍,内存带宽暴涨113%,组网速度快107%,引领算力新基建。
英伟达CEO黄仁勋曾表示,从技术参数看,华为的CloudMatrix 384超节点,性能上甚至超越了英伟达,比英伟达的尖端技术更具优势,因此我们必须高度重视这家实力雄厚的公司,全力以赴应对挑战。半导体研究公司 Semi Analysis 称,CloudMatrix 384 在几个关键领域的表现优于 Nvidia 的 GB200 NVL72,特别是在训练海量人工智能模型或运行要求苛刻的推理工作负载方面。
图片来自华为中国官方微信
早在HDC2025大会上,华为云CEO张平安就宣布了,基于华为云CloudMatrix384超节点的新一代昇腾云服务已经在芜湖、贵安、乌兰察布和林格尔全面上线。张平安说,华为云致力于为大家提供澎湃的AI算力,让大家不再有AI算力短缺的焦虑。
华为云CloudMatrix384超节点整机的原理,按照张平安的说法是,数学补物理,空间换算力,能源助性能,打破传统AI服务器的边界,通过系统级的创新,将384颗昇腾NPU和192颗鲲鹏CPU通过全新的高速网络MatrixLink对等互联,形成一台超级AI服务器。
华为首次线下展出昇腾384超节点,即Atlas 900 A3 SuperPoD,该产品基于超节点架构,通过总线技术实现384个NPU之间的大带宽低时延互联,解决集群内计算、存储等各资源之间的通信瓶颈。通过系统工程的优化,实现资源的高效调度,让超节点像一台超级计算机一样工作。算力规模300 PFlops,单卡的推理量,从每秒600Token跃升到现在每秒2300Token,提升4倍,成功打破跨机通信带宽性能瓶颈,实现从服务器级到矩阵级的资源供给模式转变。
这款整机具备四大技术特点:一、吞吐突破性能强,可以实现软硬件协同优化,单卡Decoding吞吐达到2300Tokens;其次,主流模型覆盖多,沉淀了行业主流160+模型,可以高效支撑模型迁移;三、专家并行效率高,国内首创的大规模专家并行方案,可以实现系统级优化支撑更大吞吐、更低decode时延;四、规模灵活,初始投资小,每年迭代发布新版本,可以实现弹性灵活按需使用。
借助 CloudMatrix 384,华为现在提供了一种可靠、可扩展且本地制造的替代方案。作为中国最大的科技公司,华为尽管受到美国出口限制,但仍在迅速取得进展。专家表示,这可能会重塑人工智能基础设施和硬件的未来。
SAIL项目在上海落地!中兴+曦智科技+壁仞发布国内首个光互联GPU超节点
在本次大会上,曦智科技联合壁仞科技、中兴通讯共同推出的光跃LightSphere X——全球首个分布式光互连光交换GPU超节点解决方案获得2025 SAIL奖(卓越人工智能引领者奖)。
