64GPUforAI真的很会

一年前，益企研究院解析过超聚变的FusionPoD整机柜液冷服务器，其高功率密度、便捷的三总线盲插架构，以及可靠的液冷防泄漏设计，在当时就给我们留下了深刻的印象。

经过多年的技术和可靠性积累，FusionPoD的成熟架构已从CPU向GPU覆盖，支持多种GPU形态，可以满足多样算力应用，预计今年上半年就会达到累计10万节点的商用发货规模。

随着数据中心规模的扩大和液冷技术的应用，整机柜交付愈发成为一种潮流。整机柜服务器有很多优点，既能提高密度和能效，又能简化部署和运维。在AI场景的大模型训练应用中，可谓如鱼得水。

算力密度，是大模型训练集群的关键。服务器之间的距离越近，就越有利于GPU或加速卡的快速通信，所以一个机柜内能放置的服务器数量，多多益善。

以超聚变FusionPoD for AI整机柜液冷服务器为例，每个机柜能容纳8台8 GPU模组的节点，共64个GPU，单柜供电功率可达105kW，采用液冷原生设计，支持总线盲插、集中供电、多算力兼容。

面对单柜高达上百千瓦的功耗，只有液冷散热才能可靠应对这样高的功率密度带来的巨大热量。FusionPoD for AI整机柜液冷服务器采用冷板式液冷结合液冷背门的技术方案，实现了100%全液冷，单柜pPUE低至1.06。

高效部署

高效部署是整机柜服务器的“优良传统”，服务器与机柜一体交付的形态也天然适配液冷方案。液冷整机柜交付，部署效率可提升10倍。

FusionPoD for AI机柜背面的电、液双总线盲插设计，让运维人员可以从正面快捷插拔节点，也利于运维机器人的操作，可实现无人智检、自动运维，大幅简化运维工作。

两总线架构可以实现对不同厂家交换机的兼容，有着灵活的上行接口，在固定交换机的配置下这个整机柜架构也可实现三总线的应用。

高密算力

在风冷服务器中，随着GPU功率的增长，8 GPU的DGX/HGX机型也从6U、8U一路走“高”……马上到达10U，这在空间上就限制了算力密度的进一步增长。而冷板式液冷就无需高大的散热片，服务器的高度可以大幅降低。譬如FusionPoD for AI整机柜液冷服务器所采用的GPU节点GN560E，8 GPU配置下的高度只有4U！一个机柜就能容纳8台，提供多达64个GPU，甩风冷服务器好几“条”柜。

GN560E服务器从正面看分为两个区域，上方1U为“机头”部分，支持2颗英特尔至强可扩展处理器和32条DDR5内存，前面板包括存储和I/O。其中，左侧支持8个2.5英寸NVMe SSD，右侧为2个2.5英寸SAS/SATA盘。前I/O区域提供一个iBMC管理GbE网口，提供1个VGA接口、2个USB接口。

下方3U空间可容纳8 GPU模组，支持独立向前抽出，便于维护。整机支持13个PCIe槽位，可灵活配置不同类型的PCIe标卡。

FusionPoD for AI遵循架构开放、多算力兼容的理念，在一套硬件平台的基础上可以实现多样性算力应用：

支持NVIDIA不同模组及新一代在整机柜架构上应用和演进；支持Intel、AMD等不同计算应用；兼容传统PCIe应用；支持双生态算力应用；整机柜架构能力持续演进，满足不同算力单元迭代应用。

高效供电

作为一个具有前瞻性设计的硬件平台，之前我们介绍过的FusionPoD整机柜服务器已经在供配电和液冷架构上打好了基础，FusionPoD for AI的主要不同在于计算节点（CPU/GPU服务器）和网络部分。

系统采用380V三相交流输入、48V直流电源总线设计。机柜顶端是2个3U的电源框，支持2N和N+M的冗余配置，向后端的铜排输出48V直流电。每个电源框可容纳18个3kW的PSU，最大支持6路三相32A的输入；两个电源框组成的电源模块最大35+1配置（N+1冗余），因此最大支持105kW供电，满足FusionPoD for AI整机柜液冷服务器的高效供电需求。

配套的以太网交换机如果支持48V直流电源，可以直接盲插到机柜侧后方的48V电源总线上。针对通用交换机的220V交流供电需求，也可以选配PDU模块。PDU模块的高度为2U，安装在电源框下方，支持1+1路380V交流输入，1+1路380V交流输出给电源框供电，5+5路220V交流输出给交换机供电，满足下方5U空间内交换机的供电需求。

100%液冷原生设计

电源框、交换机、计算节点的分区布置，结合电、网上走线，符合水电分离的设计要求。FusionPoD for AI的服务器节点和机柜采用防漏液设计，支持节点级和柜级漏液监控，支持节点漏液关断，能够实现漏液自隔离。液冷节点的原生设计充分考虑了漏液保护的要求，例如无孔铆设计、前后挡水墙设计、鹰嘴导流槽设计等。

机柜的漏液检测模块分为两种传感器：光电式漏液传感器用于检测Manifold是否存在漏液现象，通过机柜管理模块上报漏液检测告警；浮子式漏液传感器用于检测液冷门是否存在漏液现象，通过机柜管理模块上报漏液检测告警。

为了进一步消除用户的后顾之忧，液冷组件的设计和材质选型目标为10年以上的可靠应用，已获得TÜV防泄漏第三方认证。

结语

高算力、高性能、高能效、高可靠、高带宽、整机交付、支持架构和能力开放，同业界共享开放生态——超聚变FusionPoD for AI是高密算力、多样化算力时代的新标杆。

玩酷网

数据与科技挺配