英伟达超级芯片曝光,带火了它

趣唠科技不打烊 2024-08-12 03:13:33

文丨俊俊

英伟达(NVIDIA) Blackwell平台将于2025年正式放量,取代既有的Hopper平台,成为NVIDIA高端GPU(图形处理器)主力方案。届时,Blackwell将占英伟达整体高端产品近83%。

在B200和GB200等追求高效能的AI Server机中,单颗GPU功耗可达1,000W以上。HGX机种每台装载8颗GPU,NVL机种每柜达36颗或72颗GPU,显著的能耗将大大促进AI Server散热供应链的成长。

因此,NVIDIA Blackwell所采用的液冷散热也受到较大关注。

液冷已经从“选配”到“必配”

随着高速运算的需求增长,更有效的AI Server(AI服务器)散热方案也受到重视。

液冷技术以其卓越的导热性能、庞大的热容量、高效的能耗比、出色的静音效果以及低总拥有成本(TCO)等优势,正逐步在数据中心散热领域占据核心地位。

而英伟达Blackwell 将在2024年底前的推出,届时大型CSP(云端服务业者)也会开始建置Blackwell新平台的AI Server数据中心,预估有机会带动液冷散热方案渗透率达10%。

服务器芯片的热设计功耗(Thermal Design Power, TDP)持续提高,如B200芯片的TDP将达1,000W,传统气冷散热方案显然不足以满足需求,液冷成为主要选择。

据悉,预期NVIDIA将于2024年底先导入NVL36组态,以便快速进入市场。NVL72因其AI Server整体设计及散热系统较为复杂,预计将于2025年推出。

GB200 NVL36及NVL72整机柜的TDP 甚至将高达70 kW及近140 kW。GB200 NVL36架构初期将以气冷、液冷并行方案为主;NVL72有更高散热能力需求,需要较完善的液冷散热方案,原则上优先使用液冷方案。

图源 TrendForce

观察现行GB200机柜系统液冷散热供应链,主要可为分水冷板(Cold Plate)、冷却分配系统(Coolant Distribution Unit, CDU)、分歧管(Manifold)、快接头(Quick Disconnect, QD)和风扇背门(Rear Door Heat Exchanger, RDHx)等五大零部件。

CDU为其中的关键系统,负责调节冷却剂的流量至整个系统,确保机柜温度控制在预设的TDP范围内。目前针对NVIDIA AI方案,以Vertiv(维谛技术)为主力CDU供应商,奇鋐、双鸿、台达电和CoolIT等持续测试验证中。

资料显示,Vertiv 推出用于人工智能的高密度模块化数据中心产品MegaMod CoolChip,旨在帮助将AI的在线容量比标准现场建设快50%。

MegaMod CoolChip 使用液体冷却(包括直接到芯片的冷却),并且可以配置为支持AI计算提供商的平台,并根据客户要求进行扩展,可以空气冷却和液体冷却的混合方式。

MegaMod CoolChip 可在全球范围内使用,可用作模块化改造或用作新的独立式数据中心,容量高达数兆瓦。维谛技术(Vertiv)声称,与使用“传统技术”的数据中心相比,该解决方案可以提高电力使用效率,但未提供这方面的具体数据。

谁能率先掌握核心技术,谁就能掌握市场的主导权。资料显示,Vertiv液冷扩产计划正在按进度推进,公司预计到24年年底能实现以23年年底为基准的45倍产能扩张。

足见液冷市场需求的广阔前景。

据权威机构预测,仅中国市场,2023年至2028年间,液冷服务器市场将保持年均45.8%的高速增长态势,预计到2028年,市场规模将突破102亿美元的里程碑。

液冷替代正全面加速

散热领域相关技术始终在提升,先是自然风冷、空调风扇、 散热片,继而是液冷。

散热系统优劣直接影响芯片系统的稳定发挥。

高温环境下,芯片内部的电子元件会因为长时间工作而受到损耗,从而缩短芯片的使用寿命。温度升高还会引起电容、电阻以及金属线等材料的热膨胀,进而导致它们的机械变形和结构破坏,最终影响芯片的正常运行。

单从芯片来看,风冷的极限芯片散热功率是800W,英伟达部分产品已经突破风冷能力上限,所以,液冷的替代是不得不的存在。

此外,从数据中心诞生的那天起,高能耗仿佛就成为了数据中心的“原罪”。

自然风冷的数据中心,单机柜密度一般只支持 8-10kW,在机柜功率超过 10kW 后性价比大幅下降。而2025年AI集群算力单机柜密度将有望到20-50kW,也远远超出了风冷的上限。

液冷的市场需求呼之欲出。

液冷,这种确保计算机在安全的温度下运行的冷却方法,通过利用流动液体的高比热容来吸收并转移计算机内部元件产生的热量到外部,相较于空气,液体的高比热容,能更高效地传递热量,从而降低能量消耗。

不得不提的“双碳”

液冷技术的出现,也契合了“双碳。”

与传统风冷技术相比,液冷技术节能效果显著提高。

风冷散热下,数据中心的 PUE 值(Power Usage Effectiveness,即电能利用效率。PUE值越接近于1,表示一个数据中心的绿色化程度越高;PUE 值越高,数据中心的整体效率越低)通常在 1.5 左右;冷板式液冷PUE值为1.1-1.2,相变浸没式液冷PUE值小于1.05, 单相浸没式液冷PUE值小于1.09,喷淋式液冷PUE值小于1.1。

节能效果显著。

因此,在“双碳”目标的驱动下,数据中心也正加速向绿色、低碳、可持续的发展模式转型,而高算力需求的激增也促使高功率单机柜快速普及,为液冷技术开辟着巨大的市场空间。

7月23日信息显示,国家发展改革委、工业和信息化部、国家能源局、国家数据局等部门共同发布《数据中心绿色低碳发展专项行动计划》。

目标25年底,全国数据中心整体上架率不低于60%,但政策要求与数据中心实际运行PUE仍有较大差距。

前面提到过,市场主流芯片功耗密度近年来持续提升,推动了散热的市场需求快速增长,所以,推进存量项目制冷架构技术改造及优化升级,推广制冷设备,实现节能降碳改造势在必行。

目前看来,液冷技术的商业化落地,大势所趋。至于散热未来是否有更优解,静待技术迁跃。

0 阅读:0

趣唠科技不打烊

简介:感谢大家的关注