文丨寄语
半导体市场如火如荼:台积电3nm被疯抢,英伟达即将推出的 Blackwell 处理器在未来 12 个月内已经销售一空,全球半导体市场月度销售额连续五个月增长……
AI泡沫疑云,似乎不攻自破?
与此同时,一些芯片问题则变得越来越严重,曾经基本被“无视”的软性指标,现已成为芯片设计中的重要考量因素。
散热问题,萦绕“芯”头温度是影响电子产品质量的关键因素,电子设备发热的本质原因就是工作能量转化为热能的过程。
半导体工作过程中,过高的温度不仅会影响芯片的性能和稳定性,还会对整个电子系统的可靠性造成威胁,缩短其使用寿命。
随着时间的推移,产品性能将逐渐变弱。芯片过热将导致静态功耗在芯片总耗能总占比越来越高、短路或断路、电化学反应腐蚀、器件炸裂等现象,具体看来,过热将导致:
1、性能下降:温度过高将会导致芯片性能下降,甚至出现死机、蓝屏等故障。
2、可靠性降低:高温将加速电子元件的老化,缩短设备的使用寿命。
3、安全性隐患:极端情况下,过热将可能引发火灾等安全事故。
4、能源浪费:消耗过多的电力不仅增加运营成本,更加剧能源危机。
随着算力需求增长,芯片集成度和功耗不断提高,如何在保证芯片性能的前提下,有效解决散热问题,已经成为业界关注的焦点。
冷却技术,一直在演进硅芯片由多种材料封装而成。
PBGA内部结构示意图
可以看出,芯片包含了多种不同材料,而封装材料的热膨胀系数则各不相同。
由于芯片被强制焊在单板上,温度变化将导致的热应变被限制在固有的空间内,芯片内部便会出现挤压、拉扯。
这些相互之间的作用力,在长时间的积累下,可能造成材料产生机械裂纹,以至芯片失效。极端情况下,会瞬间诱发断裂,造成芯片永久性损坏。
过高热量给芯片带来带来的不良影响已经不容忽视,为解决高性能计算设备中的热管理问题而设计的散热技术,通过直接在芯片或处理器表面移除热量来优化设备性能并延长使用寿命。
随之而来的是,散热技术的硬件升级已经成为“刚需”,散热方式从自然风冷、空调风扇,散热片,继而发展到了液冷技术。
芯片制程的不断微缩,大大加剧了散热困境。明显可以看到,高性能算力芯片的功耗正在加速上升。按照传统散热经验,芯片的散热密度存在物理极限,每平方毫米芯片的散热能力约为 1 瓦。
随着芯片功率的不断提升,超过300W后,使用传统的散热器进行散热,效果已经不明显。
当芯片进入 10 纳米以下,例如英特尔和 AMD 等芯片巨头则纷纷采用液冷均热片来解决发热问题。
以2024年英伟达推出的B200GPU为例,功耗达到1000W,已经突破了风冷的散热极限,只能采用液冷技术。液冷散热技术被认为是AI时代的理想散热方案。
全液冷的节能优势非常明显。据数智前线,要实现1000kW散热,如果完全使用传统风冷空调,需消耗约500kW电能;而全液冷散热则仅需消耗约30kW电能。节能高达90%以上,液冷占比越高,则节能收益越明显。
节能不仅保护电子产品性能,更能直观的节省一大笔日常运营成本中的电费支出这一项。
液冷技术从“可选”到“必选”功耗越大,液冷的价值就越大,倒逼产业对液冷的需求升级。散热技术演化的背后,是芯片技术的不断迭代。
液冷技术通过将液体(如水或矿物油、氟化液等绝缘低沸点的冷却液)作为传热介质,利用其高热容量和高导热性,通过热交换将芯片产生的热量迅速排出。完全绝缘、无腐蚀性的冷液,具有更高的散热效率和更低的能耗。
图源:2023通信机房与数据中心冷却技术及设备蓝皮书
液冷系统通常由冷却液管路、冷板或散热片、泵和散热器组成,冷却液吸收热量后被送到散热器,再通过空气或水冷的方式散热。
此外,液冷技术中的均热片作为散热器的辅助组件,通过将热量均匀分布到整个散热器表面,进一步提高散热效率。
随着双碳战略政策落地,提升功率密度并降低PUE(即电源使用效率,评价数据中心能源效率的指标,越接近1越优)的设计要求已成为大势所趋。
但液冷系统在设计上较风冷系统更为复杂,且成本较高,对安装和维护的要求较高,物理空间占用较大。此外,若系统出现泄漏,可能导致设备损坏。
AI的星辰大海,实际上是靠能源、芯片共同堆叠的大基建工程。
先进算力有多耗电,用8000张H100训练100天,需要消耗2600万度电,这意味着三峡一天的发电量,或上海一天用电量的5%。
液冷技术在优化电子系统寿命的同时,在节能减排方面表现出色,更是在助力双碳的路上一路狂奔。降低能耗,或将成为未来AI投资不可或缺的一个方向。
随着AI技术的进一步普及,液冷将逐步取代传统的风冷,成为高性能计算的主流散热解决方案。
未来,随着AI、3DIC、先进封装及其它新兴技术的不断推进,芯片的性能和功耗将面临更大挑战。
如何有效管理和降低芯片的热量问题,将是行业可持续发展的重要课题,未来或许有更佳散热技术的出现,助力满足不断增长的高性能计算需求,我们期待。