AI大模型推理和训练对浪潮信息的影响

雪球的隐士 2025-03-07 12:38:52

分析AI大模型技术革新对于浪潮信息的影响,或者对算力的需求,一定要区分推理和训练两个环节。

根据之前的计算,推理和训练对于算力的需求量并不在一个量级,以OpenAI为例,5000万日活的AI大模型,2024年训练的费用为30亿美元,推理的费用为20亿美元。假设GPT大模型的训练频率为每周一次,那么,单次的训练成本约为5769万美元。

据每日经济新闻报道,DeepSeek R1的训练费用只有557.6万美元,不到OpenAI的GPT大模型训练成本的十分之一。

训练解决的是AI大模型有和无(或者说1和0)的问题,如果AI大模型因为算力不足无法训练出来,那么,无从谈起AI大模型推理对算力的影响。

一、AI大模型训练的算力公式

(一)OpenAI的算力

OpenAI曾在论文中提出过一个经验公式:C≈6×P×D。其中,C为训练大模型所需的算力,单位是FLOPS(或者浮点运算次数);P是大模型中参数的数量;D是训练数据集的大小,也就是用多少tokens来训练。

假设GPT大模型中参数的数量约为5000亿个,训练数据集包含约10万亿个tokens。那么,GPT大模型需要的算力C≈6×P×D=3×1025 FLOPS。

在FP16(半精度浮点运算)精度下,英伟达A100型号的GPU的实际算力约为300 TFLOPS,即3×1014 FLOPS,假设OpenAI使用5万张A100型号的GPU集群训练GPT大模型,那么,这个GPU集群的算力约为1.5×1019 FLOPS。

根据T=C/r(注:C=3×1025 FLOPS,r=1.5×1019 FLOPS),我们可以大致计算出训练一次用时23天。

假设把A100显卡换成H100,在FP16(半精度浮点运算)精度下,H100的算力是A100的3.17倍,也就是说,OpenAI使用5万张H100型号的GPU集群训练GPT大模型,训练一次的时间约为7.3天,也就是大概一周时间。

(二)DeepSeek的算力

半导体研究机构SemiAnalysis认为,DeepSeek囤积了6万张英伟达GPU卡,其中包括1万张A100、1万张H100、1万张“特供版”H800、3万张“特供版”H20。据此估算,DeepSeek拥有的GPU集群的算力规模,相当于2.5万张H100型号的GPU集群。

这个算力规模,理论上不能支撑DeepSeek训练出6710亿参数的DeepSeek R1,但考虑到DeepSeek使用若干方法,进一步释放了英伟达显卡的潜力,使得2.5万张H100用出了25万张H100的效果,最终训练出了DeepSeek R1,并能够保持定期更新的状态。

二、AI大模型推理的算力需求

和训练比,AI大模型从训练环节到了推理环节,会有如下变化:

(1)计算类型从“前向传播+反向传播”变成了只有“前向传播”。

(2)算力需求从“GPU集群”变成了“单GPU”。

(3)内存需求从“极高(TB级)”变成了“较低(只需要支持模型参数)”。

(4)互联带宽从“非常高(高速网络)”变成了“较低”。

(5)能耗成本从“高(一次性)”变成了“低(持续性)”。

(6)时间消耗从“数天到数月”变成了“毫秒到秒级”。

(7)优化方向也从“加速训练、降低能耗、支持更大模型”变成了“降低延迟、提升效率、支持大规模并发”。

因此,从“训练”到了“推理”以后,对于算力卡的“性能”要求降低了,但是要“量大”管饱。

三、小结

当DeepSeek把模型训练出来以后,有和无的问题就已经解决了,剩下就是1到100、100到10000的问题了。考虑到大模型推理环节的算力需求和日活是正相关的。

中国网民数量为10多亿,美国网民数量为3亿多,中国网民数量大约是美国网民的3倍。仅考虑“自循环”,中国市场的AI大模型推理算力需求至少是美国的3倍。

很多人担心,如果美国限制高端算力卡流入中国,会不会影响浪潮信息的业绩;我认为,不会。之前DeepSeek没有搞出来前,确实会有影响,现在国内已经搞出来比肩OpenAI的大模型后,这个“卡脖子”的威胁,其实已经没有了,对于浪潮信息而言,未来只有不断增长的算力市场。

0 阅读:13

雪球的隐士

简介:感谢大家的关注