面向超万卡集群的新型智算技术方案

面向超万卡集群的新型智算技术白皮书

超万卡集群将有助于压缩大模型训练时间，实现模型能力的快速迭代，并及时对市场趋势作出应对。然而，如何在超万卡集群中实现高效的训练，并长期保持训练过程的稳定性，是将大模型训练扩展到数万张GPU卡上所要面临的双重挑战。超万卡集群运行过程中涉及到进群有效算力发挥、超大规模互联网络稳定性保障、故障的快速排查和修复等关键问题，目前都是业内关注的焦点。

超万卡集群的核心设计原则

在大算力结合大数据生成大模型的发展路径下，超万卡集群的搭建不是简简单单的算力堆叠，要让数万张GPU卡像一台“超级计算机”一样高效运转，超万卡集群的总体设计应遵循以下五大原则：

致力于打造卓越集群算力：通过Scale-up互联实现单节点算力巅峰，借助Scale-out互联将单集群规模扩展至万卡以上，共同构建超万卡集群的核心基石。我们致力于打造协同调优系统，依托强大的算力集群，采用DP/PP/TP/EP等多种并行训练策略，不断提升有效算力。我们的愿景是实现极致的计算通信比，从而最大化模型开发效率。致力于打造稳定可靠的训练环境：自动检测和修复软硬件故障，支持千万器件满负荷运行，持续提高MTBF与降低MTTR,实现自动断点续训功能。确保千亿稠密、万亿稀疏大模型在百天长稳训练中保持系统稳定性与鲁棒性。我们致力于提供灵活的算力支持，通过智能集群调度，确保训练和推理资源按需分配。同时，我们实现了大作业与多任务并行训练性能的平衡，为您提供高效、稳定的计算服务。致力于绿色低碳发展：全面推广液冷技术，超万卡集群应用，力求实现高能效(FLOPs/W)和极低液冷PUE(1.10以下)。

超万卡集群总体架构设计

总体架构由四层一域构成，四层分别是机房配套、基础设施、智算平台和应用使能，一域是智算运营和运维域。

一、前言

随着人工智能、大数据分析和科学计算等领域的飞速发展，对计算能力的需求达到了前所未有的高度。超万卡集群作为一种能够提供超强计算能力的基础设施，在应对这些大规模计算任务中具有重要意义。然而，要充分发挥超万卡集群的效能，需要一系列新型智算技术来构建一个完整的解决方案，涵盖硬件架构、软件协同、算法优化、能源管理、容错机制以及安全保障等多个方面。

二、硬件架构设计

（一）计算节点优化

GPU 选型与配置

在超万卡集群中，GPU 是核心计算部件。选择具有高浮点运算能力、大显存容量以及高效深度学习加速功能的 GPU 型号，如 NVIDIA 的高端系列。为每个计算节点配备多块 GPU，通过高速内部互联技术（如 NVLink）实现 GPU - GPU 之间的低延迟、高带宽通信，便于进行数据并行和模型并行计算。

例如，对于深度学习训练任务，大显存可以容纳更大的模型和批量数据。每块 GPU 的显存容量应根据常见模型规模和数据量进行评估，如对于一些超大规模的自然语言处理模型，可能需要每块 GPU 具备 32GB 甚至 64GB 以上的显存。

CPU 与内存协同

搭配高性能的 CPU，其主要作用是管理计算节点的整体运行，包括数据预处理、GPU 任务调度等。选择多核心、高主频的 CPU 型号，如 Intel Xeon 或 AMD EPYC 系列。同时，为计算节点配置大容量、高频率的内存。内存容量应足以支持 GPU 数据传输和 CPU 本地数据处理的需求，例如每个计算节点可配备 512GB - 1TB 的 DDR4 或 DDR5 内存。

采用高效的内存管理技术，如内存预取、缓存优化等，以减少数据访问延迟。通过优化 CPU - 内存 - GPU 之间的数据传输路径，提高整体计算效率。

（二）网络架构构建

高速互联网络

超万卡集群需要低延迟、高带宽的网络来连接众多的计算节点。InfiniBand 网络是一个理想的选择，其具备高带宽（如可达 200Gbps 甚至更高）和极低的延迟（纳秒级）。采用基于 InfiniBand 的 RDMA（Remote Direct Memory Access）技术，可以实现计算节点之间的直接内存访问，大大减少了数据传输的 CPU 开销。

构建多层次的网络拓扑结构，如胖树（Fat - Tree）拓扑。在胖树拓扑中，网络带宽随着层级的上升而增加，能够有效地避免网络拥塞，实现大规模计算节点之间的高效通信。

网络交换机与路由设备

选择高性能的 InfiniBand 交换机，其端口数量应根据计算节点的数量和网络扩展性需求进行配置。交换机应具备高吞吐率、低延迟和支持大规模端口聚合等特性。同时，配置智能路由设备，能够根据网络流量动态调整路由策略，确保数据在网络中的高效传输。

例如，对于超万卡集群，可能需要配置多台具有数百个端口的 InfiniBand 交换机，并通过高速链路进行级联，以构建一个完整的网络架构。

（三）存储系统布局

高速存储设备

采用全闪存阵列（All - Flash Array）作为主要的存储设备，其具备极高的读写速度，可以满足超万卡集群对大规模数据的快速访问需求。例如，采用 NVMe - SSD（Non - Volatile Memory Express - Solid State Drive），其顺序读写速度可以达到数 GB/s，随机读写速度也能达到数百 MB/s。

对于频繁访问的小文件，如深度学习中的模型参数文件，可以采用内存级存储技术，如将部分数据缓存到内存中，进一步提高访问速度。

分布式存储架构

构建分布式存储系统，如 Ceph 等。分布式存储系统可以将数据分散存储在多个存储节点上，提高存储系统的容量和可靠性。通过数据冗余和分布式哈希表等技术，实现数据的高效存储和快速检索。

在超万卡集群中，分布式存储系统可以为大规模的数据集提供存储支持，如在深度学习训练中，存储海量的图像、文本等训练数据。

三、软件系统集成

（一）操作系统定制

内核优化

基于 Linux 操作系统进行定制，针对超万卡集群的硬件特性对内核进行优化。调整内核参数，如网络参数（如 TCP 缓冲区大小、拥塞控制算法等）以适应高速网络环境；优化内存管理参数，提高内存分配和回收效率，以满足大规模计算任务对内存的频繁访问需求。

例如，对于 InfiniBand 网络，调整内核中的 RDMA 相关参数，确保网络通信的稳定性和高效性。

设备驱动适配

开发适配超万卡集群硬件设备的驱动程序，确保 GPU、网络设备、存储设备等在操作系统下能够稳定运行并发挥最佳性能。对新的硬件特性进行驱动层面的支持，如对新型 GPU 的新功能（如混合精度计算的硬件加速等）提供驱动支持。

（二）分布式计算框架

深度学习框架集成

集成主流的深度学习框架，如 TensorFlow、PyTorch 等。对这些框架进行优化，使其能够充分利用超万卡集群的计算资源。例如，在 TensorFlow 中，通过配置分布式训练策略（如数据并行、模型并行策略），可以将训练任务分配到超万卡集群的各个计算节点上进行并行计算。

针对超万卡集群的网络特性，优化框架中的通信模块。利用 InfiniBand 网络的 RDMA 功能，减少深度学习框架中数据并行训练时梯度同步的通信开销。

通用分布式计算平台

采用通用的分布式计算平台，如 Apache Spark 等，用于处理大规模的数据处理和分析任务。在超万卡集群上对 Spark 进行优化，提高其在大规模集群环境下的性能。例如，优化 Spark 的任务调度算法，使其能够根据计算节点的负载情况和数据分布情况合理分配任务。

实现深度学习框架与通用分布式计算平台的协同工作。例如，在数据预处理阶段，利用 Spark 对大规模数据进行清洗、转换等操作，然后将处理后的数据提供给深度学习框架进行模型训练。

（三）资源管理与调度

资源管理系统

构建资源管理系统，如采用 Kubernetes 对超万卡集群的计算资源、网络资源和存储资源进行统一管理。Kubernetes 可以对计算节点进行容器化管理，方便部署和管理各种计算任务。

对资源进行细粒度的划分和管理。例如，将 GPU 资源按照显存大小、计算能力等进行分类管理，根据不同的计算任务需求分配相应的资源。

任务调度策略

设计智能的任务调度策略。采用优先级调度机制，对重要的计算任务（如关键的深度学习模型训练任务）给予较高的优先级，确保其能够及时获得计算资源。同时，考虑任务的资源需求和计算节点的负载情况，采用负载均衡调度策略，将任务均匀分配到各个计算节点上，避免出现部分节点负载过重而部分节点闲置的情况。

例如，可以采用基于预测的任务调度策略，根据历史任务执行数据和当前系统资源情况，预测未来任务的资源需求，提前进行资源预留和任务调度。

四、算法优化策略

（一）并行算法设计

数据并行优化

在深度学习训练中，优化数据并行算法。采用异步数据并行策略，减少同步等待时间。在超万卡集群中，不同计算节点处理不同批次的数据，当节点完成数据处理后，异步地将梯度更新发送到参数服务器或者进行节点间的梯度汇总。

对数据划分算法进行优化，根据数据的分布特点（如图像数据的类别分布、文本数据的词频分布等）进行合理的数据划分，确保每个计算节点处理的数据具有代表性，提高模型收敛速度。

模型并行改进

对于超大规模的深度学习模型，改进模型并行算法。采用细粒度的模型并行策略，将模型的不同层或者同一层的不同部分分配到不同的计算节点上进行计算。例如，对于具有数千层的深度神经网络，可以将模型按照功能模块或者网络深度进行划分，每个计算节点负责计算其中的一部分。

优化模型并行中的通信机制，减少模型不同部分之间的通信开销。通过预取模型参数、缓存中间结果等方式，提高模型并行计算的效率。

（二）混合精度计算

算法原理

混合精度计算是在计算过程中使用不同精度的数据类型（如单精度和半精度）来提高计算效率。在超万卡集群中，利用 GPU 的混合精度计算能力，在对计算精度要求不高的部分（如神经网络中的前向传播计算）使用半精度计算，可以大大提高计算速度，同时在关键的计算部分（如梯度更新等）使用单精度或更高精度计算，以保证模型的收敛性和准确性。

实现与优化

在深度学习框架中实现混合精度计算的支持。例如，在 TensorFlow 和 PyTorch 中，可以通过设置相应的参数或者使用专门的混合精度计算库来启用混合精度计算。对混合精度计算过程进行优化，如优化数据类型转换算法，减少精度转换过程中的计算开销。

（三）优化算法选择与改进

传统优化算法优化

对于传统的优化算法，如随机梯度下降（SGD）及其变种（如 Adagrad、Adam 等），在超万卡集群环境下进行优化。例如，在大规模数据并行训练中，对 SGD 算法进行异步优化，允许不同计算节点以不同的步长进行梯度更新，然后通过合适的聚合机制进行汇总。

针对超万卡集群的高并行性，调整优化算法中的参数更新策略。例如，在 Adam 算法中，根据计算节点的数量和数据分布情况，动态调整学习率、一阶矩估计和二阶矩估计的更新方式。

新型优化算法探索

探索新型的优化算法，如基于进化算法、群体智能算法等思想的优化算法在超万卡集群上的应用。例如，将粒子群优化算法与深度学习的梯度下降算法相结合，利用粒子群优化算法的全局搜索能力来辅助梯度下降算法跳出局部最优解，提高模型的收敛速度和最终性能。

五、能源管理与散热解决方案

（一）能源管理系统

功耗监测与分析

构建功耗监测系统，对超万卡集群中的每个计算节点、网络设备和存储设备的功耗进行实时监测。通过在硬件设备上安装功耗传感器，将功耗数据采集到中央管理系统中。

对功耗数据进行分析，了解不同计算任务、不同设备状态下的功耗变化规律。例如，分析在深度学习模型训练的不同阶段（如数据加载、前向传播、反向传播等）计算节点的功耗变化情况，以便制定针对性的能源管理策略。

电源管理策略

采用智能电源管理策略，根据计算任务的负载情况调整设备的电源供应。例如，在计算任务较轻时，降低 GPU 和 CPU 的工作频率和电压，从而降低功耗。通过动态电压和频率调整（DVFS）技术，实现设备功耗的动态优化。

对闲置设备进行电源管理，如将长时间闲置的计算节点设置为低功耗休眠模式，当有新的计算任务需要分配时再唤醒，减少不必要的能源消耗。

（二）散热系统设计

散热技术选型

根据超万卡集群的功耗和散热需求，选择合适的散热技术。对于高功率的计算节点，可以采用液冷散热技术。液冷散热具有更高的散热效率，可以有效地降低 GPU 和 CPU 等关键部件的温度。

在网络设备和存储设备等低功率但高密度的设备区域，可以采用高效的风冷散热技术，如采用高转速、大尺寸的风扇和优化的风道设计，确保设备在正常温度范围内运行。

散热系统监控与优化

构建散热系统监控平台，实时监测散热设备的运行状态（如液冷系统中的冷却液温度、流速，风冷系统中的风扇转速等）和计算节点的温度。根据温度数据及时调整散热设备的运行参数，如提高液冷系统的冷却液流速或增加风冷系统的风扇转速，以应对高负载情况下的散热需求。

对散热系统进行优化，例如通过优化计算节点的布局，使热量分布更加均匀，减少局部热点的产生。同时，对散热系统的管道、散热器等部件进行优化设计，提高散热效率。

六、容错机制与可靠性保障

（一）硬件容错设计

冗余硬件配置

在超万卡集群中，采用冗余的硬件配置来提高系统的可靠性。例如，为每个计算节点配备冗余的电源，当一个电源出现故障时，另一个电源可以继续为计算节点供电。在网络设备方面，采用冗余的网络链路和交换机，如双链路连接和双交换机配置，确保网络通信的不间断。

对于存储系统，采用冗余的数据存储方式，如 RAID（Redundant Array of Inexpensive Disks）技术或者分布式存储系统中的数据冗余策略，防止数据丢失。

硬件故障检测与修复

构建硬件故障检测系统，通过硬件自带的传感器（如温度传感器、电压传感器等）和智能监控软件，实时检测硬件设备的运行状态。一旦检测到硬件故障，及时发出警报并进行故障定位。

对于可热插拔的硬件设备（如硬盘、内存等），支持在线更换和修复，减少因硬件故障导致的系统停机时间。对于不可热插拔的设备（如 GPU、CPU 等），制定快速维修策略，确保在最短的时间内恢复系统运行。

（二）软件容错机制

检查点与恢复技术

在分布式计算任务中，采用检查点技术。定期对计算任务的中间状态（如深度学习模型的参数、计算任务的进度等）进行保存。在发生软件故障（如进程崩溃、系统重启等）时，可以从最近的检查点恢复计算任务，避免从头开始重新计算。

优化检查点的保存和恢复算法，减少检查点操作对计算任务的影响。例如，采用增量式检查点技术，只保存计算任务中发生变化的部分，提高检查点的保存和恢复效率。

软件容错算法

开发软件容错算法，如在分布式计算框架中采用拜占庭容错算法。在超万卡集群中，当部分计算节点出现故障或者受到恶意攻击（发送错误数据等）时，容错算法能够识别并纠正错误数据，确保计算任务的正确执行。

对分布式计算框架中的通信协议进行容错设计，如采用纠错码技术，对在网络传输过程中出现的错误数据进行纠正，提高软件系统的可靠性。

七、安全保障措施

（一）数据安全

数据加密技术

在超万卡集群中，对存储和传输的数据进行加密。对于存储在分布式存储系统中的数据，采用对称加密和非对称加密相结合的方式。例如，使用 AES（Advanced Encryption Standard）算法对数据进行对称加密，使用 RSA（Rivest - Shamir - Adleman）算法对对称加密的密钥进行非对称加密。

在数据传输过程中，特别是在网络通信中，采用 SSL/TLS（Secure Sockets Layer/Transport Layer Security）协议对数据进行加密传输，防止数据在传输过程中被窃取或篡改。

数据访问控制

构建严格的数据访问控制机制。根据用户的身份和权限，对数据的访问进行授权。例如，在深度学习模型训练中，只有具有特定权限的研究人员或开发人员才能访问和修改模型参数和训练数据。

采用基于角色的访问控制（RBAC）模型，对不同角色（如管理员、数据分析师、开发人员等）定义不同的访问权限，确保数据的安全性和保密性。

（二）网络安全

防火墙与入侵检测系统

在超万卡集群的网络边界设置防火墙，阻止外部恶意网络流量的入侵。防火墙可以根据预先定义的规则（如允许或禁止特定 IP 地址、端口号的访问等）对网络流量进行过滤。

部署入侵检测系统（IDS），实时监测网络中的入侵行为。IDS 可以采用基于特征的检测方法和基于异常的检测方法，对网络中的恶意攻击（如 DDoS 攻击、端口扫描等）进行检测并及时发出警报。

网络安全协议应用

在超万卡集群内部的网络通信中，采用安全的网络协议。除了上述提到的 SSL/TLS 协议外，还可以采用 IPsec（Internet Protocol Security）协议对网络层的数据进行保护。IPsec 协议可以提供数据加密、完整性验证和身份认证等功能，确保网络通信的安全性。

（三）系统安全

用户认证与授权

建立严格的用户认证和授权系统。采用多因素认证方法，如结合密码、令牌、指纹识别等方式对用户身份进行验证。只有通过认证的用户才能登录超万卡集群系统。

根据用户的身份和角色，对用户在系统中的操作权限进行授权。例如，普通用户只能执行计算任务，而管理员可以进行系统配置、资源管理等操作。

-对此，您有什么看法见解？-

-欢迎在评论区留言探讨和分享。-

玩酷网

面向超万卡集群的新型智算技术方案

薪科技快评