自主算力底座,重构AI基石。
文 | 华商韬略 熊剑辉
今年以来,从DeepSeek、宇树机器人,到“中国版阿斯麦”新凯来……一大批中国科技创新惊艳世人。
很多人并不知道,这背后都闪耀着华为的身影。
特别是华为云,一边在芯片底层深耕,一边以CloudMatrix瞄准超节点冲锋,将训练、推理、具身智能全面推上云端,终成英伟达之外的“算力第二极”。
今天,即便英伟达AI算力依然占优,却悄然丧失垄断的“铁王座”。
当中国再次面临科技链的硬封锁,华为的超节点突破,正引领中国AI迈向更自主、更普惠、更颠覆的新时代。
【超节点突围】
2025年3月18日,美国加州圣何塞。
在号称全球“科技春晚”的英伟达GTC大会上,黄仁勋重磅发布了全新的Blackwell Ultra GPU,以及基于该芯片的NVL72服务器,震惊世界。
由8个NVL72机架组成的完整版Blackwell Ultra DGX超节点,算力高达11.5 ExaFLOPS FP4。
算力爆表背后,英伟达的“超节点技术”,才是不传之秘。
什么是“超节点”?
简单来说,超节点是一种突破性的智算硬件架构。
在传统的AI服务器里,一张计算卡中仅能容纳8块GPU芯片。这导致GPU之间传输速度快,但计算卡之间传输速度慢。
本来,这不是什么大问题。可如今,伴随AI崛起,行业巨头动不动要连接起成千上万、乃至10万计的GPU,使其渐渐成了一个大麻烦。
一个典型的案例是,当年Meta为训练4050亿个参数的Llama 3大模型,使用了包含16384块NVIDIA H100 80GB GPU的集群。
常言道:三个和尚没水喝。更何况,这是16384个“和尚”挑“三峡”,导致平均3小时就发生一次意外报错,浪费了巨量的时间、算力、人力成本。
而要解决这个大问题,一要将AI服务器进一步集成,二要提高算卡间的网速。
NVL72超节点技术,因此应运而生。
简单理解,NVL72就是一个装了72张GPU的超级AI服务器,算卡之间通过NVLink网络技术连接,令AI的算力和通讯速度几何倍数提升。
NVL72基础上,还能不断叠加,变成NVL144、NVL288、NVL576……
超节点技术加持下,成百上千颗GPU不断叠加,却依然能像一颗超级GPU一样,协同高速运行。
可这样的超节点技术,一度为英伟达独有,且是封闭生态,不容任何人染指。
对此,连谷歌、亚马逊都要另辟蹊径;遭遇高端AI芯片禁运的中国,也只能望洋兴叹。
但不论遭遇怎样的艰难险阻,中国人相信,一定能突出重围。
2024年9月,华为全联接大会,华为云发布了AI原生云基础设施架构CloudMatrix,通过计算、存储和网络技术的协同创新,打造“超节点+集群”系统算力解决方案。
▲华为公司常务董事、华为云计算CEO 张平安
就在昨天(2025年4月10日),华为云生态大会2025上,华为公司常务董事、华为云计算CEO张平安又公布了AI基础设施架构突破性进展——CloudMatrix 384超节点,已在芜湖数据中心规模上线,成为国内唯一正式商用的大规模超节点。
华为云超节点,强在哪?
【创新大破局】
当AI成为推动变革的重要力量,如何让AI更好地走向产业落地,成为时代发展的“必答题”。
而CloudMatrix 384超节点,就是华为云给出的答案。
▲CloudMatrix 384超节点
传统的云服务,以单台服务器作为交付单元。
而基于超节点技术的华为云CloudMatrix 384,提供的却是一种动态组合的算力切片。
它通过“一切可池化”“一切皆对等”“一切可组合”三大创新设计,以及HCCS等全自研通信协议,最终在算力密度、互联带宽、长稳运行上,实现了全方位提升。
算力上,华为云通过新型高速总线,实现多卡紧耦合互联,成为一个超级云服务器。
这使其算力规模领先,训练超大规模大模型亦不在话下。
在互联带宽上,华为云CloudMatrix 384通过超高带宽Scale-Up新型高速总线网络,实现从“传统以太网”向“共享总线网络”演进,资源互联带宽大幅提升。
稳定性上,CloudMatrix 384支持长稳运行,故障分钟级恢复。
简单来说,CloudMatrix 384,就是384张昇腾算力卡组成的一台AI服务器节点。这不仅是中国最大的商用超节点,相较英伟达NVL72,它规模更大、算力更强、性能更优,由此成为AI推理时代的新动力。
实际上,伴随DeepSeek的横空出世,华为云超节点已经在其中一展身手。
2025年1月底,硅基流动正考虑部署DeepSeek。可简单一算账,一个月要动用80台英伟达H800,耗费五六百万,还不一定能用满。
风险之下,硅基流动转身找到了华为云。
2月1日,由硅基流动与华为云联合首发并上线基于昇腾云服务的DeepSeekR1/V3推理服务,率先跑通了在国产芯片上部署DeepSeek模型的路径。
由此,才真正掀起了DeepSeek全面开花的狂潮。
4月10日,硅基流动再度宣布:基于华为云CloudMatrix 384 超节点昇腾云服务,并采用大规模专家并行最佳实践的DeepSeek-R1,正式上线。
该服务在保证单用户20TPS水平前提下,单卡“生成回答”(Decode)吞吐突破1920Tokens/s,性能比肩英伟达H100;在总算力、互联带宽、内存带宽上,更领先业界。
技术上,华为云超节点与DeepSeek,堪称绝配。
实际上,DeepSeek训练采用的MoE架构,会因All-to-All通信,产生GPU闲置、负载不均衡等问题。
而超节点,恰恰能通过资源池化、高带宽低时延的交换互联模式,有效缓解DeepSeek流水线并行计算的资源空置、MoE架构下的GPU闲置等难题,成为部署DeepSeek的最优选。
特别是面对中小企业、学校、医院等机构快速部署需求,华为云又开发出昇腾一体机。
这种“开箱即用”的解决方案,目前已支持150+企业的DeepSeek服务迅速上线,在无限次免费使用“满血版”DeepSeek的同时,彻底告别“服务器繁忙”的困扰。
这既是DeepSeek带来的AI平权,也是华为云引领的算力普惠。
【共筑繁荣AI生态】
如今,伴随DeepSeek的加速部署,中国智能化时代正呼啸而来。
有数据显示,当下中国每天用AI生成内容的用户高达3亿,五分之一的网民在用AI创作,每天消耗的Tokens高达10万亿,相当于上百万部《三体》。
国际咨询机构Gartner则预测,2027年,中国80%的企业将使用多模型生成式人工智能(AI)。
“喷薄而出”的AI需求,越发渴求强大的AI全栈能力。
华为云生态大会2025上,华为云最新的“AI全家桶”,也应时而来。
不论是GaussDB数据库、软件工具链CodeArts,还是云安全、数字内容生产线MetaStudio等产品,都经过智能化全面升级,展现出华为云在AI领域超强的全栈能力。
AI全栈自研,正是很多人看好华为云的核心原因。
但在华为云看来,仅是“AI全家桶”远远不够。
华为云力图构建的AI全栈能力,贯穿着坚定打造“自主创新、安全可靠”的AI算力底座、坚定深耕行业、坚定推进生态建设“三大坚定”。
面向“三大坚定”,华为云正稳步推进。
▲华为云乌兰察布数据中心
AI算力底座上,华为云一面在贵州贵阳、内蒙古乌兰察布、安徽芜湖完成了三大云核心枢纽布局,一面不忘携手生态伙伴。
2024年10月,科大讯飞与华为联合打造的“飞星二号”正式上线。
这是双方完全基于昇腾生态,打造的国产超大规模智算平台。
正如科大讯飞董事长刘庆峰所说:
“只有在真正自主研发、自主创新的平台上,才有真正的中国人工智能大未来。”
这样的“自主创新、安全可靠”,不仅在为“飞星二号”这一智算平台赋能,更通过这一平台,进一步渗透到能源、金融、教育、医疗等多个行业。
而在深耕行业上,华为云坚定以盘古大模型为引擎,打造行业ToB解决方案,令众多企业受益。
在宝钢,通过华为云盘古大模型对高炉炉况的场景优化,每年降本超10亿。
在广汽,由盘古大模型构建的代码助手,在端开发、车端开发的研发效率提升10%;诊断助手让工程师查册时间减少50%,故障排诊效率提升30%。
在天士力,基于盘古打造的“数智本草”大模型,参数高达380亿,可快速进行药材和复方的筛选和优化。
今天,华为云盘古大模型已在30多个行业、400多个场景中落地,广泛应用于城市治理、智慧金融、医疗健康、气象预测等领域。
华为云全栈的AI能力,正持续给千行万业带来巨大的商业价值。
而数字世界的话语权,终究由生态的繁荣决定。
毕竟在AI时代,不是一家企业就能解决千行万业的问题,而需要整个生态合力。
诚如《华为2024年年度报告》中所说:
“生态是广袤的沃土,只有生态伙伴的成长和成功,才有生态系统的枝繁叶茂。”
围绕鸿蒙、鲲鹏、昇腾等根技术生态,华为正加速向生态伙伴开放平台能力,为开发者持续提供好用易用的工具和产品。
今天,全世界都对中国AI的进步刮目相看。这背后,是华为云做百模千态、千行万业的“黑土地”,从底层为软硬件的自主创新默默筑基,中国企业才能在AI领域放手创新,中国的AI应用才有了坚实的底气。
所以,华为的突破,从来不是“独行者快”的个体创新,而是“众行者远”的群体繁荣。
一个由华为主导的开放、合作、共赢的生态系统,必将在商业、产业、社会意义上实现更大的价值。
事实上,从电子时代、数字时代、再到AI新纪元,华为每遇科技爆发的关键节点,都是通过不断创新、坚守底线,终成跨越大周期的科技常青树。
当世界进入产业链、科技链对决的“乱纪元”,这种宝贵的突破,无疑将重筑未来科技权力的基石。
这是一场国运之战,也终将改变中国科技产业的未来格局。
——END——
欢迎关注【华商韬略】,识风云人物,读韬略传奇。
版权所有,禁止私自转载
部分图片来源于网络
如涉及侵权,请联系删除