中国移动为何花巨资建这个？十问十答带你了解“超万卡集群”！

文/黄海峰的通信生活

4月28日，在2024中国移动算力网络大会主论坛上，中国移动副总经理高同庆在演讲中指出，中国移动今年将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群，总规模近6万张GPU卡，充分满足大模型集中训练的需求。

你是不是也对“超万卡集群”充满了好奇？比如，为什么要建设超万卡集群？能带来哪些好处？建设进展如何？面临哪些挑战？需要哪些技术支撑？

《海峰看科技》将结合本次大会有关超万卡集群的内容和《面向超万卡集群的新型智算技术白皮书》，通过十问十答的方式，带大家一探究竟。

Q1：什么是超万卡集群？

超万卡集群是指由超过一万张加速卡（如GPU、TPU或其他专用AI加速芯片）组成的高性能计算系统，用以加速人工智能模型的训练和推理过程。

举个例子，如果要盖一座摩天大楼，还有一定的工期限制，只有几十个人的工人小队肯定拿不下来，这时候怎么办呢？

想象一下，如果有一个超级工地（超万卡集群），里面有上万个超级能干的高级技工（加速卡），每个技工都有自己的小工具箱（加速卡上的处理器），他们可以通过对讲机（高速网络）互相沟通、高效协作，战斗力可不得爆表。

Q2：为什么要建设超万卡集群？

大模型火了以后，千行百业都在加速从“+Al”向“Al+”转变。随着模型参数量从千亿迈向万亿，大模型对底层算力的诉求进一步升级。

以GPT-4为例，GPT-4拥有16个专家模型共1.8万亿参数，一次训练需要在大约25000个英伟达的A100上训练90到100天，对算力的消耗非常大。

在上述背景下，分散的小规模算力资源就显得捉襟见肘，超万卡集群应运而生，甚至被看做大模型基建军备竞赛的标配。

Q3：超万卡集群在国外的建设情况如何？

超万卡集群听着这么强，那大家不得争相建设。是的，放眼全球，各大科技巨头都在积极部署千卡乃至超万卡规模的计算集群。

在国际大舞台上，诸如Google、Meta、Microsoft等科技巨头，正利用超万卡集群推动其在基座大模型、智能算法研发及生态服务等方面的技术创新。

比如Meta在2022年推出拥有16,000块Nvidia A100的Al研究超级集群Al Research Super Cluster。2024年初又公布2个24576块Nvidia H100集群，支持下一代生成式Al模型的训练。

Q4：国内跟进超万卡集群建设的多不多？

再看国内情况更热闹。目前，通信运营商、头部互联网、大型Al研发企业等均在发力超万卡集群的建设，比如中国移动、华为、字节跳动、阿里巴巴、百度、科大讯飞等。

除了中国移动，其实中国电信也在迅速跟进。笔者获悉，2024年上半年，中国电信将在上海规划建设到达15000卡，总算力超4500P，将是国内首个超大规模国产算力液冷集群。

再以华为为例，去年7月，华为宣布昇腾AI集群全面升级，集群规模从4000卡集群扩展至16000卡，是业界首个万卡AI集群，拥有更快的训练速度和30天以上的稳定训练周期。

Q5：建设超万卡集群面临哪些挑战？

目前超万卡集群的建设仍处于起步阶段，面临的挑战确实不少，这里跟大家说三点。

其一，极致算力使用效率的挑战。集群规模的线性提升并不直接导致算力的线性提升，这就需要优化卡间和节点间的互联网络、软硬件适配调优。

其二，海量数据处理的挑战。大模型训练需要处理PB级数据集，对存储系统的checkpoint（检查点）读写吞吐性能要求达到10TB/s。但是传统存储系统在协议处理、数据管理和吞吐性能方面存在挑战，需要通过协议融合、自动分级等技术手段提升效率。

其三，超大规模互联的挑战。随着模型规模扩大，需要多机多卡互联和并行训练策略，这对网络的ScaleOut（横向拓展）和ScaleUp（纵向拓展）提出极高要求。这就参数面网络和数据面网络需要具备高带宽、低时延和高可靠性，支持大模型训练的数据吞吐和计算需求。

Q6：建设超万卡集群要考虑哪些设计原则？

正如前文所述，超万卡集群的搭建不是简简单单的算力堆叠，要让数万张GPU卡像一台“超级计算机”一样高效运转可不是件容易的事。

因此在设计之初，建设者需要考虑打造极致集群算力、构建协同调优系统、实现长稳可靠训练、提供灵活算力供给和推进绿色低碳发展五大原则。

Q7：超万卡集群的架构设计是怎样的？

超万卡集群的总体架构由“四层一域”构成。四层分别是机房配套、基础设施、智算平台和应用使能，一域是智算运营和运维域。

备注：本图出自于《面向超万卡集群的新型智算技术白皮书》

简单来说，大家可以把超万卡集群的“四层一域”架构，想象成一栋大楼的不同部分，每一层和领域都有自己独特的功能和作用，确保整个系统可以像一个精密的机器一样运转。

其一，机房配套层就像是大楼的地基和框架，它为整个集群提供了必要的物理条件；

其二，基础设施层相当于大楼内部的电梯、楼梯和管道等基础设施；

其三，智算平台层就像是大楼中的办公空间，提供了一个平台，让各种智能算法和模型可以在上面运行和开发；

其四，应用使能层就像是大楼内的公共服务区域，比如会议室、休息室等，它为租户提供必要的服务和工具；

其五，智算运营和运维域像是大楼的物业管理办公室，负责整个大楼的运营和管理。

Q8：超万卡集群使用了哪些黑科技？

目前，超万卡集群主要使用了集群高能效计算、高性能融合存储、大规模机间高可靠网络、高容错高效能平台和新型智算中心机房五大技术。

以集群高能效计算技术为例，如果想要全面提升底层计算能力，业界都有哪些办法？

想象一下，要赢得一场足球比赛（计算集群表现最优），作为教练的你，可能会安排：

其一，通过平时的刻苦训练，让每个球员提升技能和速度（增强单芯片能力）；

其二，球队中组成特别战术小组（提升超节点计算能力），队员通过特别的训练和协作，更高效地完成比赛中的某些关键任务；

其三，球队中不同位置的球员之间无缝配合（基于DPU实现多计算能力融合），无论前锋、中场还是后卫，都能流畅地传球和支援；

其四，球队在保持比赛强度的同时，还要注意节省体力（追求极致算力能效比）。

Q9：超万卡集群未来会怎样演进？

随着数据规模持续扩大、集群能力的不断增强以及大模型应用的日益丰富，未来业界可能会在引入超节点、探索跨节点互联网络技术、软件框架等领域实现技术突破。

与此同时，业界还会持续探索存算一体、光子芯片等先进技术领域与智算中心的结合，为下一次信息变革奠定基础。

Q10：对于超万卡集群，行业有哪些新观点？

在本次大会上，中国工程院院士郑纬民给出了自己的思考。“构建国产万卡系统，虽然很难，但也很必要。”郑纬民强调道。

在郑纬民看来，英伟达一卡难求，国产卡应用不足，当前14个国家级超算中心的计算资源尚有富余，采用软硬件协同的设计在超算机器做大模型训练成为可能。

具体来说，国产软件生态可以通过编程框架、并行加速、AI编译器等方式进行优化，使国产算力有足够的能力支撑大模型训练的工作。

玩酷网

中国移动为何花巨资建这个？十问十答带你了解“超万卡集群”！

海峰科技有话聊