一年前,益企研究院解析过超聚变的FusionPoD整机柜液冷服务器,其高功率密度、便捷的三总线盲插架构,以及可靠的液冷防泄漏设计,在当时就给我们留下了深刻的印象。
经过多年的技术和可靠性积累,FusionPoD的成熟架构已从CPU向GPU覆盖,支持多种GPU形态,可以满足多样算力应用,预计今年上半年就会达到累计10万节点的商用发货规模。
随着数据中心规模的扩大和液冷技术的应用,整机柜交付愈发成为一种潮流。整机柜服务器有很多优点,既能提高密度和能效,又能简化部署和运维。在AI场景的大模型训练应用中,可谓如鱼得水。
算力密度,是大模型训练集群的关键。服务器之间的距离越近,就越有利于GPU或加速卡的快速通信,所以一个机柜内能放置的服务器数量,多多益善。
以超聚变FusionPoD for AI整机柜液冷服务器为例,每个机柜能容纳8台8 GPU模组的节点,共64个GPU,单柜供电功率可达105kW,采用液冷原生设计,支持总线盲插、集中供电、多算力兼容。
面对单柜高达上百千瓦的功耗,只有液冷散热才能可靠应对这样高的功率密度带来的巨大热量。FusionPoD for AI整机柜液冷服务器采用冷板式液冷结合液冷背门的技术方案,实现了100%全液冷,单柜pPUE低至1.06。
高效部署
高效部署是整机柜服务器的“优良传统”,服务器与机柜一体交付的形态也天然适配液冷方案。液冷整机柜交付,部署效率可提升10倍。
FusionPoD for AI机柜背面的电、液双总线盲插设计,让运维人员可以从正面快捷插拔节点,也利于运维机器人的操作,可实现无人智检、自动运维,大幅简化运维工作。
两总线架构可以实现对不同厂家交换机的兼容,有着灵活的上行接口,在固定交换机的配置下这个整机柜架构也可实现三总线的应用。
高密算力
在风冷服务器中,随着GPU功率的增长,8 GPU的DGX/HGX机型也从6U、8U一路走“高”……马上到达10U,这在空间上就限制了算力密度的进一步增长。而冷板式液冷就无需高大的散热片,服务器的高度可以大幅降低。譬如FusionPoD for AI整机柜液冷服务器所采用的GPU节点GN560E,8 GPU配置下的高度只有4U!一个机柜就能容纳8台,提供多达64个GPU,甩风冷服务器好几“条”柜。
GN560E服务器从正面看分为两个区域,上方1U为“机头”部分,支持2颗英特尔至强可扩展处理器和32条DDR5内存,前面板包括存储和I/O。其中,左侧支持8个2.5英寸NVMe SSD,右侧为2个2.5英寸SAS/SATA盘。前I/O区域提供一个iBMC管理GbE网口,提供1个VGA接口、2个USB接口。
下方3U空间可容纳8 GPU模组,支持独立向前抽出,便于维护。整机支持13个PCIe槽位,可灵活配置不同类型的PCIe标卡。
FusionPoD for AI遵循架构开放、多算力兼容的理念,在一套硬件平台的基础上可以实现多样性算力应用:
支持NVIDIA不同模组及新一代在整机柜架构上应用和演进;支持Intel、AMD等不同计算应用;兼容传统PCIe应用;支持双生态算力应用;整机柜架构能力持续演进,满足不同算力单元迭代应用。高效供电
作为一个具有前瞻性设计的硬件平台,之前我们介绍过的FusionPoD整机柜服务器已经在供配电和液冷架构上打好了基础,FusionPoD for AI的主要不同在于计算节点(CPU/GPU服务器)和网络部分。
系统采用380V三相交流输入、48V直流电源总线设计。机柜顶端是2个3U的电源框,支持2N和N+M的冗余配置,向后端的铜排输出48V直流电。每个电源框可容纳18个3kW的PSU,最大支持6路三相32A的输入;两个电源框组成的电源模块最大35+1配置(N+1冗余),因此最大支持105kW供电,满足FusionPoD for AI整机柜液冷服务器的高效供电需求。
配套的以太网交换机如果支持48V直流电源,可以直接盲插到机柜侧后方的48V电源总线上。针对通用交换机的220V交流供电需求,也可以选配PDU模块。PDU模块的高度为2U,安装在电源框下方,支持1+1路380V交流输入,1+1路380V交流输出给电源框供电,5+5路220V交流输出给交换机供电,满足下方5U空间内交换机的供电需求。
100%液冷原生设计
电源框、交换机、计算节点的分区布置,结合电、网上走线,符合水电分离的设计要求。FusionPoD for AI的服务器节点和机柜采用防漏液设计,支持节点级和柜级漏液监控,支持节点漏液关断,能够实现漏液自隔离。液冷节点的原生设计充分考虑了漏液保护的要求,例如无孔铆设计、前后挡水墙设计、鹰嘴导流槽设计等。
机柜的漏液检测模块分为两种传感器:光电式漏液传感器用于检测Manifold是否存在漏液现象,通过机柜管理模块上报漏液检测告警;浮子式漏液传感器用于检测液冷门是否存在漏液现象,通过机柜管理模块上报漏液检测告警。
为了进一步消除用户的后顾之忧,液冷组件的设计和材质选型目标为10年以上的可靠应用,已获得TÜV防泄漏第三方认证。
结语
高算力、高性能、高能效、高可靠、高带宽、整机交付、支持架构和能力开放,同业界共享开放生态——超聚变FusionPoD for AI是高密算力、多样化算力时代的新标杆。