AMDYES！英伟达要丢大客户了

据Omdia数据，作为2024年AI领域的王者，Nvidia的12个大客户购买了超过200万颗Hopper GPU芯片，采购量翻了两番。但Nvidia的市场份额正被AMD抢夺，尤其是其推出的Instinct MI300系列GPU之后，仅微软、Meta、Oracle与TensorWave四家巨头就采购了超过32.7万颗MI300X芯片。

据Omdia估算，微软在2024年购买了约58.1万块GPU，是全球所有云或超大规模客户中购买量最大的。而这之中，有六分之一的GPU来自AMD。

AMD正在抢走Nvidia的大客户

同时，根据Omdia的调查结果，在Meta数据中心内，有43%的GPU均来自AMD，数量大约为17.3万块，而Nvidia GPU的数量约为22.4万块。与此同时，在Oracle数据中内，其总计有16.3万块GPU，其中23%来自AMD。

尽管AMD在微软和Meta等大客户数据中心内的份额不断增长，但在更大的GPU市场，其市场份额仍难以对Nvidia构成威胁。

Omdia追踪了四大GPU采购企业（微软、Meta、Oracle和GPU云巨头TensorWave）的MI300采购量，总计约为32.7万颗。

但值得注意的是，AMD的MI300系列GPU上市才一年，其销量让人侧目。因为在此之前，AMD GPU主要用于传统的HPC领域，比如美国橡树岭国家实验室（ORNL）的Frontier超级计算机。

为什么选择AMD？

尽管很多业内人士将主要原因归结为Nvidia GPU供应链短缺。但从性能数据来看，AMD的MI300X系列GPU还是提供了许多优势，比如AMD声称其浮点性能比Nvidia H100高1.3倍，内存带宽高60%，容量高2.4倍。尤其是内存带宽和容量的提升，将给AI性能提升带来立竿见影的效果，反倒是FLOPS对性能的影响并不那么明显。

一般来说，当今大多数AI模型都是以FP16精度进行训练的，这意味着，要运行这些模型，每10亿个参数需要大约2GB的vRAM。如果每张GPU配备192GB的HBM3内存，单台服务器的HBM3内存容量可以达到1.5TB。这对企业而言，最直接的优势就是，很多大模型（比如Llama）都可以完整运行在单个节点上。而另一方面，H100节点缺乏以全精度运行模型所需的内存，当然，后续配备141GB HBM3内存的H200同样也可以。

除了内存容量之外，MI300X还拥有5.3TBps的内存带宽，而H100为3.3TBps，H200为4.8TBps，这就是说，从纸面数据来看，显然MI300X在理论上应该比Nvidia Hopper GPU更适合支撑大模型训练场景。

尽管Nvidia的Blackwell即将上市，在性能和存储带宽方面再次升级。但AMD的新款MI325X配备了256GB的高带宽内存，在容量方面依然占据优势；而AMD明年还将上市MI355X，其内存容量将达到288GB。在内存容量和带宽上高于Nvidia，这似乎成为了AMD GPU的“传统”。

这或许就是微软和Meta选择AMD GPU的原因，毕竟这类互联网巨头并不缺乏性能优化方面的专家，而且这两大巨头都部署着数千亿甚至数万亿个参数的大型前沿AI模型。

据Omdia信息，AI巨头们的支持让AMD的业绩蒸蒸日上，截止到第三季度，AMD预计其Instinct产线将给AMD的2024财年贡献超过50亿美元的收入。而在即将到来的2025年，AMD将获得更多份额。Omdia评论认为：“AMD执行力强，且与客户沟通良好，善于坦诚地评论其GPU的优势和不足。”

除了AMD，Nvidia的对手还有定制芯片

由于持续的AI热潮，越来越多的AI巨头们正在部署其定制的AI芯片，包括Meta、AWS、Google与微软等。

据Omdia估算，Meta定制的MTIA加速器在今年的出货量将达到150万颗，AWS在今年则订购了90万颗Inferentia芯片。这些芯片或许当前并不会对Nvidia带来较明显的影响，因为这些芯片大多用以支撑较为传统的机器学习任务，比如推荐系统。

Inferentia和MTIA在设计时可能并没有考虑支撑大模型，但Google的TPU肯定是有考虑大模型需求的，比如用以支撑其专有的Gemini和开发的Gemma模型。据Omdia透露，Google今年采购了约100万颗TPU v5e与48万颗TPU v5p芯片。

除了Inferentia，AWS还自行设计了Trainium芯片，尽管名字看起来像是针对训练，但实际上针对训练和推理负载都进行重新调整。Omdia预计，AWS今年将订购约36.6万颗Trainium芯片。这与其Rainier项目计划相一致，该项目将在2025年为Anthropic提供“数十万”个Trainium2芯片。

微软也公布了其MAIA芯片，与AWS Trainium芯片类似，都能支持训练和推理场景。微软作为OpenAI的主要硬件合作伙伴和AI算力供应商，Omdia推测微软大约采购了19.8万颗MAIA芯片。

Nvidia能保持它的市场份额吗？

在过去两年中，Nvidia的巨额营收增长让其成为全世界最亮眼的“仔”，但Omdia认为，随着AMD、Intel和云供应商推出替代硬件和服务，Nvidia的市场份额可能会不断遭到蚕食。因为科技行业已经有很多先例（比如IBM、Intel），一旦市场份额达到90%以上，那就不太可能继续增长，因为企业用户会立即寻找其他替代方案。

Omdia认为，Nvidia可能不会继续寻求市场份额的扩大，而是专注于通过技术来进一步扩大整个潜在的市场。比如Nvidia推出的推理微服务（NIM）就是试水，NIM是一种容器化模型，其作用类似于构建复杂AI系统中的一个小组件。

Omdia评论认为：“这是乔布斯的策略。苹果智能手机的成功应归功于其应用商店，因为其让技术更容易使用。AI也是如此，建立一个应用商店，用户就会下载并使用它。”

话虽如此，但Nvidia显然更擅长硬件。现在很多Nvidia的大客户已宣布将基于Blackwell GPU打造超大规模的AI集群，从性能上看，Nvidia GPU依然远远领先于AMD和Intel的任何产品。

与此同时，Nvidia也在加速其产品路线图，通过每年都推出新芯片的节奏，来保持其领先地位。尽管Nvidia将面临越发激烈的市场竞争，但短期内依然“王者无敌”。

玩酷网

涵涵说