

文丨寄语
耗电问题让产业措手不及。
虽然AI发展“缺电”并不是现在已经出现的问题,而是未来可能面临的严峻问题。
根据最新研究,预计到2027年,近一半的人工智能(AI)数据中心可能将面临电力供应不足的问题。
而当今的数据中心已经消耗了大量电力,全球每年需要 460 太瓦时 (TWh) 的电力,相当于整个德国的用电量。
根据国际能源署(IEA)的报告,源于人工智能应用的增加,全球数据中心的总耗电量预计从 2022 年的约 460 TWh增长到 2026 年的超过1000 TWh。
人工智能这边也是一样,国际能源署(IEA)发布的2024年报告预测,到2026年,AI数据中心的电力需求将达到90TWh,这相当于730万台H100 GPU的用电量。更有机构预测,到 2030 年将再增长 1,150%,达到 652 TWh。(AI不是泡沫的话)
现实迫使产业必须研究传统能源的替代品,甚至包括核电站。
AI耗电的问题,全球应如何面对?
电力,困住AI在AI快速发展的过程中,基础设施建设与能源需求之间的紧张关系日益凸显。未来五年内近半数AI数据中心或面临电力不足危机,能源问题不得不提上议程。
虽然黄仁勋曾在公开场合表示“AI的尽头是光伏+储能”的消息是乌龙一场,但也从一个侧面反映出人们对AI引发能源危机的担忧。
马斯克则明确表达过自己的看法:2025年,AI就会由缺芯转为缺电。

数据中心的电力消耗主要来自于服务器芯片的运行、冷却系统以及整体的能源消耗。例如,冷却系统消耗的能量可达数据中心总能耗的40%。
数据中心不仅需要大量电力来支持服务器的运行,还需要额外的电力来进行冷却,以防止设备过热。
IEA报告指出,在数据中心内部,冷却系统和服务器的能耗最高,各占数据中心能耗的40%。剩余20%的电能则用于能源供应系统、存储设备和通讯设备。
因此,当前许多数据中心的电力供应已经接近极限,若不采取有效措施,未来可能无法满足日益增长的能耗需求。
同时,数据中心的计算能力需求急剧上升,导致对电力的需求也随之增加。与此同时,美国电网规划人员将美国负荷预测值翻了一番,从 2.6% 增至 4.7%,到 2028 年将增加近 38 千兆瓦,相当于在 5 年内在美国电网中再增加两个相当于纽约州的州。(当然,这也跟其许多地区电网基建已经很多年没有翻新过,完全是跟不上 AI 增长的节奏有一部分关系)
人工智能也是吃电狂魔,主要消耗在训练和推理阶段,涉及大量的计算和数据处理。例如,GPT-3的训练过程每天耗电量高达50万千瓦时。
数据显示,人工智能(AI)在2024年的年度用电量大约在9TWh到15TWh之间。这一数据反映了AI在数据中心的总电力消耗,其中40%的能耗来自计算,40%来自冷却,20%来自其他设备。
值得一提的,数据中心的高能耗不仅体现在电力消耗上,还涉及水资源的大量消耗。如果没有足够的水来散热,这些超算数据中心的机器设备可就要“热炸”了,分分钟烧报废!因此,AI超算数据中心必须要用大量水来散热,也就是“冷却液。”
例如,谷歌2021年消耗了约56亿加仑水,2022年消耗了52亿加仑(约1,976立方米)的水用于数据中心业务,相当于一个半西湖的水量。
为了确保智算中心的稳定运行,谷歌在缺水地区的水资源使用对当地生态系统和居民生活用水造成了影响。
AI能耗,正相对减少此前,大家以为AI的瓶颈是算力,随着AI成熟,日益凸显的还是能源问题。
算力可以通过堆叠、扩充产能等来补齐,能源供给才是最终决定人工智能高度的关键。没有足够的电力来运行所有的芯片的话,所有的电子产品都只是摆设。
AI缺电是一个未来可能面临的问题,而在这个问题真正到来前,一系列解决思路就已经在路上。
在需求方面,AI模型的优化,芯片效率和算法效率的提升,数据中心软硬件技术的进步,都有望减少AI的能耗。
与此同时,随着技术的完善与大模型训练的日臻成熟,日常使用AI推理的单次能耗有望下降。

值得关注的是,有针对性地训练较小的模型可以用较低的成本满足落地需求。
和万亿参数模型相比,这样的小模型训练成本、训练时长都大大压缩,同时还能很好地适应特定领域的使用场景。
它们在能源消耗上,也一定是比大模型要低很多的。
英伟达的解决方案作为GPU巨头的英伟达,自然知道产品能耗的问题,也在持续优化产品综合性能。
拥有 2, 080 亿个晶体管的BlackWell的GPU,AI 训练速度比 H100 快一倍,推理速度快 5 倍。
但在功耗层面,相同的 AI 训练量,GB200 的功耗只有前者的 1/4。随着GB200的量产,AI数据中心的耗电问题将可能会有所缓解,毕竟英伟达占据了 95% 的 AI 芯片市场。
此外,为了保障英伟达超级芯片的顺利运转,随着数据中心功率密度的提升,传统的风冷系统方法可能不再适用,这要求行业从传统的风冷技术,转向先进的液冷技术,进而提高数据中心的效能。
全液冷的节能优势非常明显。据数智前线,要实现1000kW散热,如果完全使用传统风冷空调,需消耗约500kW电能;而全液冷散热则仅需消耗约30kW电能。节能高达90%以上,液冷占比越高,则节能收益越明显。
液冷不仅创造了降低数据中心能耗的机会,还能够将电力使用效率 PUE 降至接近1的理想状态。
可参考往期文章:芯片“热”,不容忽视

在宏观上,即使AI的能耗/计算量在持续降低,其实也是挺费电的,因为计算量始终在持续产生的。
为了降低运营成本,许多数据中心选择在气候凉爽、水电资源丰富的地区建设。
例如,腾讯在贵州、华为在贵安新区、苹果在“云上贵州”等地建设数据中心,而Facebook则在北极圈外的小镇建立数据中心。
在人工智能带来的能耗问题引发广泛讨论之前,我国早在2021年就开始布局“东数西算”,这无疑极具前瞻性,也大大助力了我国在此轮算力竞赛中占得优势。
但也存在一些客观问题,如东部的数据或计算需求到不了西部。

AI计算往往需要大量的数据,如果计算需求离数据中心太远,数据的传输成本就会非常高。因此,尽管贵州、内蒙等西部地区建设了不少数据中心,但它们的使用效率还远远比不上东部的超算中心。
还有一个原因就是,目前我们现在依靠的很多清洁能源,如风能和太阳能,无法实现完全可控。
即使加上分布式储能和新能源供电,也只能短时间内提供电力上的帮助。
现实是,这些能源暂时还不在长期 AI 发展过程中,提供可持续的可靠的能源支持,无法解决长期需求。
AI+核电,巨头纷纷布局能满足AI时代如此大消耗的电能来源,在排除环境不友好的火电,以及能源稳定性较差的风、水、光伏等一系列绿电之后。目前或许仅剩下排放极低,输出稳定性极佳的“核电。”
全球巨头纷纷在布局核电能源。
10月14日,谷歌公司宣布将购买核能初创公司Kairos Power建造的小型模块化反应堆生产的电力。
此前在9月20日,微软公司宣布与星座能源公司(Constellation Energy)达成协议,将重启三里岛核电站1号反应堆,并购买其未来20年内产出的电能。这桩交易被称为美国历史上出现的最大单笔金额的购电协议。但协议的背后,还有一桩“三哩岛事件”打破了核电站“绝对安全”的神话,提醒我们加强核能安全管理,确保人类能够安全、有效地利用核能资源。
甲骨文董事长兼创始人埃里森(Larry Ellison)也宣布,公司已经获准建造三座小型核反应堆设备(SMR)。
全球最大的云服务公司亚马逊此前也宣布,斥资6.5亿美元在泰伦能源(Talen Energy)旗下的萨斯奎哈纳核电站附近建设一个发电能力达 960 兆瓦的数据中心园区。
OpenAI首席执行官山姆·奥特曼(Sam Altman)更是早早出手,在今年年初就大举投资核聚变。
就在今年8月,在一次采访中,马斯克曾向大众呼吁,核电没有人们想象的那么可怕,现在人类也有能力控制核电站事故导致的灾难,其尝试为科技企业大力发展核电,扫平舆论障碍。

中国也在发展核电,通过核电来补给光伏、水电、风电之外的稳定能源来源。
生态环境部发布的数据曾预测,到2025年,全国数据中心用电量占全社会用电量的比重将提升至5%,到2030年全国数据中心耗电量将接近4000亿千瓦时。
实际上,该数据在目前AI训练需求指数级增长的前提下,仍可能略显保守。
今年8月19日,国务院常务会议一口气审批了包括江苏徐圩一期工程在内的5个核电项目。这在中国历史上,几乎绝无仅有。
因此,为应对新能源车、AI算力带来的大量耗电需求,我国已经确立了提升核能在总体能源结构中的占比。预计在2030年之前,核电占比有望迅速提升至8%到10%,乐观的情况下,核电占比在2050年将达到20%以上甚至更高。
但是,在审批速度加快的同时,一方面是激增的核电设备需求,一方面却是天然核电设备产能瓶颈。
目前,我国在运行的核电站数量为55座,在全球国家中名列前茅。但核电在我国整体发电中所占的比例不到5%。相比之下,核电发展程度最好的法国,其核电的能源占比则为70%。
核能产业生态还未完全成熟,核电设备可细分为主设备,管材、仪表,阀门,泵,压力容器、制冷等。而包括构成主设备的零部件成百上千,每个部分的制造都有专门的人员、设备。
因此,只要一个环节的产能跟不上,整体的产能就容易受到比较大的限制。
如此一来,核电是“非标制造”行业中的又一颗明珠,但让“非标制造”快速提升产能,几乎又是不太可能做到的事情。
业内目前已经在思考利用各种方式突破产能瓶颈,从而能迎合当下核电审批效率的快速提升。
但新技术的发展总是需要一个过程。
AI尽头是电力,这也是人们在追求科技进步的同时,需要亟待解决的重要议题。随着技术发展,我们定将找到正确处理耗电的解决方法,实现实现能源系统的高质量发展以及双碳目标的实现。