近日,GPU巨头英伟达公布了财报,同比暴增854%。这样的业绩着实让英特尔、AMD眼红得很。但英伟达却表示“赚少了”。
要知道,近年来经济疲软,电子产品销量下滑,芯片企业的日子并不好过,三星、英特尔、SK海力士、美光等纷纷陷入巨额亏损,代工龙头台积电业绩也出现了下滑。
但就是在这种大环境下,英伟达实现了8.5倍的增速,绝对是非常超预期。很多小公司甚至拿着英伟达的H100 GPU做了抵押贷款。
H100是英伟达在2022年3月22日发布的全新架构GPU芯片,采用了台积电4nm工艺,集成了800亿个晶体管,算力达到了2000 TFLOPS,售价炒到了4.5万美元(折合人民币32.8万),但仍然“一芯难求”。
也就是说,英伟达赚少了,是因为产能问题。
那么问题来了,英伟达GPU产能究竟为何被限制?谁又有这个能力呢?
英伟达只设计GPU1993年,美籍华人黄仁勋联合Sun公司两位年轻工程师共同创立英伟达,1999年英伟达推出GeForce 256芯片,并首次定义了GPU概念。
但当时的GPU主要用于大型网络游戏,部分制图领域,大部分人并不需要所谓的先进GPU,因此英伟达在很长时间内并不被人了解。
2006年,英伟达推出CUDA架构,CUDA将原本应用于网络游戏的GPU扩展至高性能计算和自动驾驶领域,为英伟达生态奠定了基础。
2023年,ChatGPT爆火,AI(人工智能)成为了最热门的投资领域,英伟达的GPU因为强大的运算能力,居然成为了最佳的AI芯片,英伟达成功站上了风口。
今年二季度,花旗研究分析师Christopher Danely的报告显示,英伟达将占据AI芯片市场“至少90%”的市场份额,AMD位居第二。
随后,各大机构纷纷上调英伟达的估值,1万亿美元、1.2万亿美元、1.5万亿美元,甚至部分分析师直言“英伟达是以下一个苹果”。
创始人兼CEO黄仁勋也是信心满满,把自己誉为戈登.摩尔,将自己总结的GPU规律称为“黄氏定律”,比肩摩尔定律。
“黄氏定律”称,未来十年,英伟达可以让人工智能的性能提升100万倍,让人工智能真正地觉醒。
同时表示,过去十年,摩尔定律的性能提升了100倍,而英伟达的GPU性能提升了100万倍,未来十年摩尔定律会失效,但自己的“黄氏定律”不会失效。
正当黄仁勋自信满满时,英伟达也出现了难题,那就是产能不足。
英伟达虽然是领先的GPU厂商,但是它仅设计芯片,不负责芯片制造,同时英伟达对产业链的把控远不及苹果公司。
我们以H100为例,该芯片由英伟达公司设计,工艺制程为4nm,代工企业为台积电,属于独家代工;H100使用的存储芯片由SK海力士提供,同样是独家。
这两个独家严重制约了英伟达的产能,任何一家出现问题都会严重影响英伟达的产能。
SK海力士的高宽带内存存储芯片领域有三大公司分别是三星、SK海力士、美光。三者合计把控了全球90%以上的存储芯片。
尽管SK海力士是存储芯片市场的千年老二,但是它发明了一种特殊的高带宽内存,就是HBM堆栈,广泛应用于高端GPU领域。
以H100为例,我们可以看到,中间部分是GPU核心,由英伟达研发,两边约一半的面积是HBM内存,由SK海力士提供。
HBM与DDR内存不同,它将多个DRAM内存进行垂直堆叠,这样做既可以增加内存容量,又能降低功耗,减少面积。
HBM巨大的优势非常适合移动设备、GPU等,但过高的价格让智能手机放弃了这种技术,导致HBM一度无人问津。
2016年,阿尔法狗成功击败世界围棋冠军李世石,这让全球看到了人工智能的魅力。阿尔法狗之所以如此厉害,得益于它的深度学习。
而深度学习严重依赖海量数据,要想在短时间内训练出一款出色的大模型,不仅要有大量数据还要快速的数据传输能力,而HBM内存就恰好解决了数据传输的难题。
2023年,GhatGPT带火了AI,谷歌、华为、百度、360等企业纷纷开始打造大模型,不仅带火了GPU也带火了HBM内存。
于是,存储大厂开始在HBM领域展开角逐,最终SK海力士拔得头筹,拿到了50%的市场份额。
美光、三星入局较晚,目前只能够量产第二代HBM。而SK海力士是HBM的发明者,也是全球唯一量产第三代HBM的企业。
而英伟达为了确保自身的GPU处于行业领先地位,自然要使用技术水平更高的第三代HBM,如此,SK海力士就牢牢卡住了英伟达先进GPU(H100系列)的出货量了。
H100的PCIe、SXM、NVL三个版本分别搭载了5、6、12个HBM,这对SK海力士是极大的考验。
如今谷歌和AMD也采用了第三代HBM,同样由海力士供货,其结果就是继续挤压英伟达的产能。
台积电制造和封装我们知道台积电是领先的晶圆制造企业,制造工艺突破了2nm,实现了3nm的量产,完全有能力为英伟达代工H100 GPU。
每一颗H100经过光刻后,还需要进行特殊的封装——CoWoS。
CoWoS即Chip on Wafer on Substrate,翻译成汉语就是“芯片在晶圆上再在基板上”,也就是3D封装。
这种封装技术可以将CPU、GPU、内存等封装在一起,它的优点就是缩短芯片间的互联距离,降低能耗,节省空间,这项技术广泛应用于先进的SoC和AI芯片领域。
CPU和GPU都遵守“存算分离”,即CPU和GPU负责运算,内存负责存储数据,运算时从内存中调用数据,运算完成后将数据传输至内存,这“一来一回”,必然会造成数据延迟,和数据量受限。
我们举例说明:
上海被黄浦江一分两半,黄浦江以东为浦东,黄浦江以西为浦西,两地进行物资交换。
开始时依赖南浦大桥,传输的物资相对有限,随着经济发展,物资交换量越来越大,增加了杨浦大桥、卢浦大桥、徐浦大桥。
但上海成为国际大都市后,四座大桥仍然无法满足物资交换,那么此时有人想到了一个方法就是将浦东、浦西直接拼在一起,当然这只是打个比方。
而GPU和内存就相当于上海的浦东、浦西,在进行数据交换时,因为带宽(大桥)限制,导致GPU和内存的“速度失配”。
尽管内存很大、GPU性能很强,但是实际使用效果并不明显,因为被带宽限制了。而台积电的CoWoS封装,就是将GPU和内存封在了一起。
几块小芯片变成了一整块大芯片,数据传输效率自然成倍提高。这也是H100具备高带宽、高互联特性的原因。
H100采用了Hopper架构,台积电4nm制造工艺,集成了800亿个晶体管,拥有18432个CUDA核心、576个Tensor核心、60MB二级缓存。
H100的算力达到了2000 TFLOPS,比上一代A100算力提升了3.2倍,整体性能提升了6倍。
此外H100还具备以下几种优点:
1、动态加速;在这种环境下H100可以优化算力路径,将算力短时提升7倍。
2、高带宽、高互联;H100拥有强大的数据吞吐能力,可以实现3TB/s 的显存带宽,5TB/s的互联网速度。
3、拆分GPU;H100可以将一个GPU单元拆分为7个,同时进行不同的运算任务,并且可以将单个单元性能提升7倍。
H100这些彪悍的特性,除了英伟达自身的强大外,还得益于SK海力士的HBM内存,以及台积电的制造和封装工艺。
问题又来了,这是因为台积电工艺的优异性,苹果、AMD、英特尔、高通、博通等芯片巨头纷纷下了大单、急单。
而台积电纵使有三头六臂也不可能满足每一家的要求,于是台积电成为了卡住英伟达的第二只手。
当然台积电并没有闲着,斥资400亿美元在美国亚利桑那州建设先进的晶圆代工厂,同时启用南科的先进封测六厂,尽管阵仗很大,但效果并不明显。
亚利桑那州工厂因为基础设施、人工等多项问题被迫延迟投产,而先进封装工厂的重启也不顺利,因为必须要将SoC产能甩掉。
但AI厂商这边已经等不及了,特斯拉、微软、亚马逊等大厂把先进的H100一抢而空,其他厂商根本买不到足够的H100。
根据市场预测,H100的供给缺口已经达到了43万张。
拿不到H100怎么办呢?要知道拿不到先进GPU意味着和对手差距越来越大,总不能等死吧!于是AMD成为了英伟达的替代方案。
而一旦AMD完成了AI领域的积累和生态建设,将是英伟达最不愿看到的局面。然而,现实是这种情况正在发生。
写到最后一颗英伟达H100炒到32万人民币,这恐怕连黄仁勋也没有想到。如果英伟达不能解决HBM内存和制造、封装的难题,H100仍会继续水涨船高。
但同时,过高的价格和时间成本,会让部分厂商选择AMD,进而为AMD积累经验、打造生态。
所以,对于英伟达来说,并不希望H100继续涨价,而是保证供应量并占有市场。
现实是,英伟达既掌控不了HBM内存的产能,也保证不了制造和封装环节的产能,而这也成为遏制英伟达快速发展的两只大手。
我是科技铭程,欢迎共同讨论!