英伟达H200发布，性能很强，奈何买不到

“皮衣刀客”才是最大赢家

前几天，OpenAI一场开发者大会，让整个AI人工智能行业的从业者几乎彻夜难眠。而今天，NVIDIA英伟达同样带来了一个重磅消息——几乎可以说是目前最快的AI算力芯片H200正式发布。

距离上一次英伟达发布“新品”还没过去多久，皮衣刀客的步伐可以说是又快又稳。根据官方透露的信息，H200相比于此前的旗舰H100，直接性能提升有60%到90%。

GPU作为当下“地球上最稀缺的工程资源之一”，一度引来科技大厂们的“疯抢”。在H200发布之后，相信已经有AI公司开始订货了。

不过仔细看H200的规格就能发现，H200的升级可能并没有那么夸张，值得期待的，也许还是后来者。

只是一个“小”升级

对比H200与前代H100的规格，主要负责计算能力的核心单元部分规格并没有改变，算力规模完全一致，所带来的提升只是显存容量从80GB提高到了141GB，显存的规格从原本的HBM3升级到了HBM3e。

（图源：anandtech）

由于本身算力部分并没有变化，因此换用H200并不会对AI大模型的训练速度产生更好的影响，以训练175B大小的GPT-3举例，同规模的H200大概只比H100快10%左右。

而它主要的提升之处在于“推理”。

一般而言，推理对于算力的需求并不高，限制反而在于单芯片的显存大小以及显存带宽，如果应用到多GPU的互联，那么信息通信的带宽反而会不够。即便如NV Link提供的900GB/s的数据通信速度，也无法媲美单卡内部超过3TB/s的速度，更不用说换了HBM3e显存后高达4.8TB/s的性能了。

（图源：NVIDIA）

同样，更大的单卡显存容量也能有效减少跨卡访问的次数，算是一种变相的效率提升。

随着当前AI大语言模型逐步迈向应用化，计算任务的重心已经由早期的训练模型转变为应用端的推理行为。

此前OpenAI就曾苦于AI太过火爆，挤占了大量的推理资源，国内比如此前曾红极一时的“妙鸭相机”也因为用户太多，没有足够的推理资源而需要等待很长时间才能出片。

而H200对比H100的推理能耗直接减半，极大降低了使用成本，真应了那句话——「买的越多，省的越多」

（图源：NVIDIA）

有业内人士推测，后续消费级GPU可能也会出现类似的转变，即在算力一定的情况下，通过提升显存容量和带宽以获得更好的模型推理体验，毕竟在“全民AI”的时代，客户端的性能也需要跟上。

英伟达大规模与高性能计算副总裁Ian Buck表示：

要利用生成式人工智能和高性能计算应用创造智能，必须使用大型、快速的GPU显存，来高速高效地处理海量数据。借助H200，业界领先的端到端人工智能超算平台的速度会变得更快，一些世界上最重要的挑战，都可以被解决。显存是关键

自从近两年AI爆火后就迅速带动了AI服务器的需求爆发，AI大模型的数据参数庞大，除了需要算力支撑模型训练，同样需要数据的传递和处理。

过去20年间，算力硬件的性能提升了90000倍，但是内存、存储的互联带宽只提升了30倍，二者已然有所脱节，数据传递的速度可能远低于数据处理的效率。因此，如英伟达这样的GPU厂商，就引入了HBM代替原本的GDDR内存，通过硅中介层与计算核心紧密互联，加快数据传输速度。

据SK海力士介绍，HBM3e不仅满足了用于AI的存储器速度规格，也在发热控制和客户使用便利性等所有方面有所提升。在速度方面，其最高每秒可以处理1.15TB的数据。

早在今年8月，NVIDIA就已经计划发布配备HBM3e显存的 Grace Hopper GH200 超级芯片版本。

（图源：NVIDIA）

根据anandtech的描述，H200差不多就是GH200的GPU部分，从前面也可以看到，H200的HBM3e显存的容量有些奇怪，是141GB，HBM3e的物理容量应该是144GB，这是由于产量和良率而保留了部分容量。另一方面，H200的显存频率应该是6.5Gbps，虽然比H100提升了25%，但依旧没有达到美光希望中的9.2Gbps。

所以，此次发布的H200可能依旧算不上“满血版”，只能算是加上了HBM3e显存的H100小更新，也正因此两者是互相兼容的，已经在使用H100进行模型训练的可以直接更换成H200。

需要注意的是，H200的实际出货时间是2024年第二季度，也是由于海力士的HBM3e显存需要到今年年底才能产出，最快量产得到明年初。由此可见显存其实才是整个AI发展的重中之重。

（图源：NVIDIA）

不过，在发布中还提到了一些细节，比如2024年的B100，似乎在性能上又能有接近两倍的提升？推测未来的新架构可能会带来一些不同，说不定就是那个真正的“满血版”。

写在最后

当然，受制于美国的出口禁令，H200再强，也卖不到国内。

前两天有消息称，英伟达专为中国市场又开发了新的HGX H20、L20 PCle和L2 PCle GPU，几乎卡在了管制的算力极限上。

（图源：知乎）

只可惜这个规格，嗨……希望国产替代尽快到来吧。

本文作者：Visssom，观点仅代表个人，图源：NVIDIA

玩酷网

英伟达H200发布，性能很强，奈何买不到

镁客网