英伟达业绩暴增8.5倍，却遭受双重限制，H100价格恐进一步提高

近日，GPU巨头英伟达公布了财报，同比暴增854%。这样的业绩着实让英特尔、AMD眼红得很。但英伟达却表示“赚少了”。

要知道，近年来经济疲软，电子产品销量下滑，芯片企业的日子并不好过，三星、英特尔、SK海力士、美光等纷纷陷入巨额亏损，代工龙头台积电业绩也出现了下滑。

但就是在这种大环境下，英伟达实现了8.5倍的增速，绝对是非常超预期。很多小公司甚至拿着英伟达的H100 GPU做了抵押贷款。

H100是英伟达在2022年3月22日发布的全新架构GPU芯片，采用了台积电4nm工艺，集成了800亿个晶体管，算力达到了2000 TFLOPS，售价炒到了4.5万美元（折合人民币32.8万），但仍然“一芯难求”。

也就是说，英伟达赚少了，是因为产能问题。

那么问题来了，英伟达GPU产能究竟为何被限制？谁又有这个能力呢？

英伟达只设计GPU

1993年，美籍华人黄仁勋联合Sun公司两位年轻工程师共同创立英伟达，1999年英伟达推出GeForce 256芯片，并首次定义了GPU概念。

但当时的GPU主要用于大型网络游戏，部分制图领域，大部分人并不需要所谓的先进GPU，因此英伟达在很长时间内并不被人了解。

2006年，英伟达推出CUDA架构，CUDA将原本应用于网络游戏的GPU扩展至高性能计算和自动驾驶领域，为英伟达生态奠定了基础。

2023年，ChatGPT爆火，AI（人工智能）成为了最热门的投资领域，英伟达的GPU因为强大的运算能力，居然成为了最佳的AI芯片，英伟达成功站上了风口。

今年二季度，花旗研究分析师Christopher Danely的报告显示，英伟达将占据AI芯片市场“至少90%”的市场份额，AMD位居第二。

随后，各大机构纷纷上调英伟达的估值，1万亿美元、1.2万亿美元、1.5万亿美元，甚至部分分析师直言“英伟达是以下一个苹果”。

创始人兼CEO黄仁勋也是信心满满，把自己誉为戈登.摩尔，将自己总结的GPU规律称为“黄氏定律”，比肩摩尔定律。

“黄氏定律”称，未来十年，英伟达可以让人工智能的性能提升100万倍，让人工智能真正地觉醒。

同时表示，过去十年，摩尔定律的性能提升了100倍，而英伟达的GPU性能提升了100万倍，未来十年摩尔定律会失效，但自己的“黄氏定律”不会失效。

正当黄仁勋自信满满时，英伟达也出现了难题，那就是产能不足。

英伟达虽然是领先的GPU厂商，但是它仅设计芯片，不负责芯片制造，同时英伟达对产业链的把控远不及苹果公司。

我们以H100为例，该芯片由英伟达公司设计，工艺制程为4nm，代工企业为台积电，属于独家代工；H100使用的存储芯片由SK海力士提供，同样是独家。

这两个独家严重制约了英伟达的产能，任何一家出现问题都会严重影响英伟达的产能。

SK海力士的高宽带内存

存储芯片领域有三大公司分别是三星、SK海力士、美光。三者合计把控了全球90%以上的存储芯片。

尽管SK海力士是存储芯片市场的千年老二，但是它发明了一种特殊的高带宽内存，就是HBM堆栈，广泛应用于高端GPU领域。

以H100为例，我们可以看到，中间部分是GPU核心，由英伟达研发，两边约一半的面积是HBM内存，由SK海力士提供。

HBM与DDR内存不同，它将多个DRAM内存进行垂直堆叠，这样做既可以增加内存容量，又能降低功耗，减少面积。

HBM巨大的优势非常适合移动设备、GPU等，但过高的价格让智能手机放弃了这种技术，导致HBM一度无人问津。

2016年，阿尔法狗成功击败世界围棋冠军李世石，这让全球看到了人工智能的魅力。阿尔法狗之所以如此厉害，得益于它的深度学习。

而深度学习严重依赖海量数据，要想在短时间内训练出一款出色的大模型，不仅要有大量数据还要快速的数据传输能力，而HBM内存就恰好解决了数据传输的难题。

2023年，GhatGPT带火了AI，谷歌、华为、百度、360等企业纷纷开始打造大模型，不仅带火了GPU也带火了HBM内存。

于是，存储大厂开始在HBM领域展开角逐，最终SK海力士拔得头筹，拿到了50%的市场份额。

美光、三星入局较晚，目前只能够量产第二代HBM。而SK海力士是HBM的发明者，也是全球唯一量产第三代HBM的企业。

而英伟达为了确保自身的GPU处于行业领先地位，自然要使用技术水平更高的第三代HBM，如此，SK海力士就牢牢卡住了英伟达先进GPU（H100系列）的出货量了。

H100的PCIe、SXM、NVL三个版本分别搭载了5、6、12个HBM，这对SK海力士是极大的考验。

如今谷歌和AMD也采用了第三代HBM，同样由海力士供货，其结果就是继续挤压英伟达的产能。

台积电制造和封装

我们知道台积电是领先的晶圆制造企业，制造工艺突破了2nm，实现了3nm的量产，完全有能力为英伟达代工H100 GPU。

每一颗H100经过光刻后，还需要进行特殊的封装——CoWoS。

CoWoS即Chip on Wafer on Substrate，翻译成汉语就是“芯片在晶圆上再在基板上”，也就是3D封装。

这种封装技术可以将CPU、GPU、内存等封装在一起，它的优点就是缩短芯片间的互联距离，降低能耗，节省空间，这项技术广泛应用于先进的SoC和AI芯片领域。

CPU和GPU都遵守“存算分离”，即CPU和GPU负责运算，内存负责存储数据，运算时从内存中调用数据，运算完成后将数据传输至内存，这“一来一回”，必然会造成数据延迟，和数据量受限。

我们举例说明：

上海被黄浦江一分两半，黄浦江以东为浦东，黄浦江以西为浦西，两地进行物资交换。

开始时依赖南浦大桥，传输的物资相对有限，随着经济发展，物资交换量越来越大，增加了杨浦大桥、卢浦大桥、徐浦大桥。

但上海成为国际大都市后，四座大桥仍然无法满足物资交换，那么此时有人想到了一个方法就是将浦东、浦西直接拼在一起，当然这只是打个比方。

而GPU和内存就相当于上海的浦东、浦西，在进行数据交换时，因为带宽（大桥）限制，导致GPU和内存的“速度失配”。

尽管内存很大、GPU性能很强，但是实际使用效果并不明显，因为被带宽限制了。而台积电的CoWoS封装，就是将GPU和内存封在了一起。

几块小芯片变成了一整块大芯片，数据传输效率自然成倍提高。这也是H100具备高带宽、高互联特性的原因。

H100采用了Hopper架构，台积电4nm制造工艺，集成了800亿个晶体管，拥有18432个CUDA核心、576个Tensor核心、60MB二级缓存。

H100的算力达到了2000 TFLOPS，比上一代A100算力提升了3.2倍，整体性能提升了6倍。

此外H100还具备以下几种优点：

1、动态加速；在这种环境下H100可以优化算力路径，将算力短时提升7倍。

2、高带宽、高互联；H100拥有强大的数据吞吐能力，可以实现3TB/s 的显存带宽，5TB/s的互联网速度。

3、拆分GPU；H100可以将一个GPU单元拆分为7个，同时进行不同的运算任务，并且可以将单个单元性能提升7倍。

H100这些彪悍的特性，除了英伟达自身的强大外，还得益于SK海力士的HBM内存，以及台积电的制造和封装工艺。

问题又来了，这是因为台积电工艺的优异性，苹果、AMD、英特尔、高通、博通等芯片巨头纷纷下了大单、急单。

而台积电纵使有三头六臂也不可能满足每一家的要求，于是台积电成为了卡住英伟达的第二只手。

当然台积电并没有闲着，斥资400亿美元在美国亚利桑那州建设先进的晶圆代工厂，同时启用南科的先进封测六厂，尽管阵仗很大，但效果并不明显。

亚利桑那州工厂因为基础设施、人工等多项问题被迫延迟投产，而先进封装工厂的重启也不顺利，因为必须要将SoC产能甩掉。

但AI厂商这边已经等不及了，特斯拉、微软、亚马逊等大厂把先进的H100一抢而空，其他厂商根本买不到足够的H100。

根据市场预测，H100的供给缺口已经达到了43万张。

拿不到H100怎么办呢？要知道拿不到先进GPU意味着和对手差距越来越大，总不能等死吧！于是AMD成为了英伟达的替代方案。

而一旦AMD完成了AI领域的积累和生态建设，将是英伟达最不愿看到的局面。然而，现实是这种情况正在发生。

写到最后

一颗英伟达H100炒到32万人民币，这恐怕连黄仁勋也没有想到。如果英伟达不能解决HBM内存和制造、封装的难题，H100仍会继续水涨船高。

但同时，过高的价格和时间成本，会让部分厂商选择AMD，进而为AMD积累经验、打造生态。

所以，对于英伟达来说，并不希望H100继续涨价，而是保证供应量并占有市场。

现实是，英伟达既掌控不了HBM内存的产能，也保证不了制造和封装环节的产能，而这也成为遏制英伟达快速发展的两只大手。

我是科技铭程，欢迎共同讨论！

玩酷网

英伟达业绩暴增8.5倍，却遭受双重限制，H100价格恐进一步提高

科技铭程