4 月 10 日举办的华为云生态大会,本来是本年度科技领域的焦点盛会。但正巧这几天川普一直在跟我们搞关税的闹剧,大家有限的精力基本都去看这场闹剧了,很多同学可能都不知道华为的这场生态大会。
这篇文章我们就来看下这个大会中关于昇腾的内容。
CloudMatrix 384 超节点的技术架构与性能表现华为云推出的 CloudMatrix 384 超节点,在硬件架构设计上进行了创新。从性能参数对比来看,相较于英伟达 NVL72,其超节点总算力提升 67%。在网络互联方面,通过优化网络拓扑与传输协议,总带宽提升 107%,为节点间数据高速传输提供保障,减少数据等待时间,提升整体计算效率。内存子系统方面,总带宽提升 113%,这得益于对内存控制器的优化以及高速内存模块的选用,使数据读写速度大幅提高,能快速响应大规模计算任务对内存的高要求。
采用 CloudMatrix 384 组网的集群,在并行计算的线性度与稳定性方面表现出色。实现万卡线性度>95%,意味着随着计算节点的增加,计算资源的利用率能保持较高水平,几乎呈线性增长。MFU(Memory Utilization Factor)达 55%,表明内存资源得到了较为充分的利用。长稳定训练 40 天不中断,这依赖于系统级的冗余设计、高效的散热系统以及完善的故障检测与恢复机制。从硬件层面,采用冗余电源、热插拔硬盘等设计;软件层面,实时监控系统运行状态,出现故障能在秒级完成监控并在 10 分钟内恢复训练作业。
昇腾 910C 的技术规格及对超节点的支撑CloudMatrix 384 超节点由昇腾 910C 组网。昇腾 910C 单卡具备特定的技术规格,单卡算力为 781.25 Tflops,这一算力性能是基于其芯片内部计算单元的优化设计。通过增加计算核心数量、优化指令集以及提升运算并行度等方式实现。单卡内存总带宽为 3200 GB/s(8*HBM2e),HBM2e(High Bandwidth Memory 2 generation e)技术的采用,使得内存带宽大幅提升,能快速将数据传输至计算核心,满足高强度计算对数据吞吐的需求。单卡 GPU 互联带宽为 400GB/s(同 910B,因封装限制),尽管受到封装工艺限制,但在现有条件下通过优化互联接口设计,保证了卡间数据传输的稳定性。
昇腾 910C 在超节点中发挥着核心计算单元的作用,多颗昇腾 910C 协同工作,通过高速互联总线与超节点内的其他组件,如网络交换芯片、内存模块等紧密配合,实现大规模数据的并行计算,为 CloudMatrix 384 超节点提供了强大的算力支撑。
华为的系统级思维:工艺受限下的创新方案在先进工艺受限的情况下,华为采用以堆叠换性能的策略。以昇腾 910C 为例,通过 Chiplet 技术,将两颗训推一体芯片拼接成为纯训练芯片,这一做法突破了单一芯片性能提升的瓶颈。在系统层级,华为从整体架构出发,对硬件各组件进行协同设计。例如,在 CloudMatrix 384 超节点中,对网络、内存、计算芯片等组件进行一体化设计,通过优化各组件间的数据传输路径与协议,提升系统整体性能,而并非单纯追求单个芯片或组件的极致性能。这种系统级思维,通过整合现有技术资源,实现了性能的最大化提升,为行业提供了一种在工艺受限条件下的创新发展思路。
“训推一体 + 纯训练” 组合迭代的技术逻辑从技术发展路线来看,华为 AI GPU 规划了 “训推一体 + 纯训练” 的组合迭代模式。以现有的 7nm 制程 910 系列为例,训推一体的 910 适用于对训练和推理有综合需求的场景,其在芯片设计上兼顾了训练时的大规模数据并行处理能力以及推理时对响应速度的要求。而纯训练的 910C 通过 Chiplet 技术提升了训练算力,满足大规模深度学习训练对算力的极致需求。
下一代 6nm 的 920 系列同样遵循这一逻辑,训推一体的 920 和纯训练的 920C 将在制程工艺提升的基础上,进一步优化芯片架构与性能。这种迭代模式有助于满足不同应用场景对 AI GPU 的多样化需求,在训推一体市场,能为各类企业提供高效的一站式解决方案;在纯训练市场,能为科研机构、大型互联网企业等对训练算力有高要求的用户提供强大的计算资源,推动国产 AI GPU 在不同细分市场的发展。
新服务与框架发布基于 910C 384 卡超节点的昇腾云服务和推理框架 SiliconLLM 由硅基流动和华为云共同发布。在 AI 推理性能提升方面,利用大规模 EP(Elastic Parallelism,弹性并行)并行技术,通过动态调整计算资源的分配,提高计算资源利用率。在推理 DeepSeek-R1 时,在单用户 20 TPS(Transactions Per Second,每秒事务处理量)水平前提下,单卡 Decode 吞吐可达 1920 Tokens/s。这一性能的实现,除了依赖昇腾 910C 的硬件性能,还得益于推理框架 SiliconLLM 对算法的优化。框架针对超节点架构特点,对推理算法进行了并行化处理,减少推理过程中的数据依赖,提升计算效率,尤其是在处理如 R1 这种稀疏 MoE(Mixture of Experts,混合专家模型)时,通过对模型结构的优化以及数据调度算法的改进,充分发挥了超节点的性能优势,GB200 在其中起到了数据快速缓存与传输的关键作用,进一步提升了推理效率。