
作者丨朱可轩
编辑丨陈彩娴
大模型浪潮来袭后,2023 年英伟达数据中心的 GPU 出货量总计约 376 万台,较之上一年的 264 万台增长 100 多万台,并成为历史上规模增长最快的硬件公司。据估计,2025 年英伟达销量将达到 650 万至 700 万块 GPU。
目前情况来看,英伟达在 GPU 上的垄断局面仍在持续,然而,其长期持久性(>6 年)的问题仍在被持续热议。
当前,以谷歌、微软、亚马逊和 Meta 为代表的海外巨头正在积极整合 AI 需求,力争成为 NPU 的主要消费者,与此同时,他们也正在自研具有竞争力且高度可靠的芯片。
此外,计算需求的规模之大也触及了资本支出、电力供应和基础设施建设的极限,这正在推动行业转向分布式、垂直集成和协同优化的系统(芯片、机架、网络、冷却、基础设施软件、电源),而英伟达对此准备不足。
基于此,英伟达可能会失去有利地位,影响将波及 AI 堆栈的各个层面——从晶圆厂和半导体,到基础设施、云端、模型开发者和应用层。
1巨头加速芯片竞争据英伟达方面介绍,2025 财年第四季度,其共交付了 110 亿美元 Blackwell 芯片,Blackwell 主要卖给云巨头,这部分收入占英伟达数据中心业务收入的半成左右。
不过,业内判断,云巨头的份额将缩小,此外,由于过度购入并被迫亏损出售的小/短期GPU租赁厂商的利用率和投资回报率也均较低。
同时,由于规模化的前沿模型成本更低、性能和泛化能力更佳,尤其是在有效的 RAG 和广泛可用的微调机制之下,大多数使用特定数据训练专有模型的公司价值点尚不明确,这些长尾买家的需求并不稳固。
此外,部分小型独立云厂商如 Coreweave、Lambda、Crusoe、Runpod 等的未来不够明晰,英伟达过往伟减少云巨头带来的冲击给予他们资金和 GPU 支持,但其仍旧缺乏产品多样性、基础设施和人才能力。
相比之下,云巨头的需求则增长迅速,外部开发者面临着长期资源短缺,交付周期长达数月,而内部需求也加剧了这一趋势,50-70% 的总计算量用于前沿训练和重大成果(例如 Copilot、Gemini 和 Meta AI)的推理。
尽管各大云服务提供商每年的资本支出都超过 200 亿美元,但所有主要云平台都已满负荷运转。凭借规模和基础设施经验,云巨头最有能力摊销折旧和停机成本,同时提供他们也提供了很强的灵活性、安全性和可靠性,由此带来高 AI 服务利润率和客户信任度。
当 GPU 支出数亿时,英伟达在主导驱动并行 AI/ML 工作负载方面的平衡是可控的,如今,这种情况已不复存在。在一些超大规模数据中心,资本支出已超过毛利润的 25%,GPU 占基础设施支出的一半,并占数据中心 TCO 约 80%。此外,与软件不同,推理是边际成本结构的核心。

来源:John Huber
随着未来训练(50 亿美元以上)支出受限,定制化和资本效率对于最大限度地扩展计算能力、训练最佳模型和保持竞争力至关重要。
虽然替代英伟达并不容易,但巨头们均在寻找机会点:
Meta 用 ASIC 取代了英伟达处理其一些最大的 DLRM 工作负载,谷歌也用同样的方法处理了 YouTube 的关键视频编码工作负载。亚马逊早在 2012 年就用 Nitro 取代了虚拟机管理程序,并用 Graviton 取代了大量英特尔 CPU。
云巨头以及 Marvell、Broadcom、Astera、Arista 和 AIchip 等主要设计合作伙伴已经投入了大量资金和工程人才,以削弱英伟达的垄断。

定制计算市场和Marvell收入坡道的增长预测
以谷歌为例,自 2013 年以来,他们一直在内部开发 TPU,虽然开发周期长达数年,但在预算、人才和架构都有限的情况下,TPU v1 从启动到部署仅用了 15 个月。
并且历届 TPU 论文中与对应的 GPU 相比都有性能和能耗上的优势。比如,TPU 第 4 代和英伟达的 A100 是同等制程的,在这一情况下,单看半导体利用率,TPU 的技术和架构及设计方案会比 GPU 有 3-5 倍的性能提升。
现阶段,也有许多头部厂商在采用 TPU,如 Anthropic 使用 TPU v5e 进行推理,苹果则曾选择在 TPU V4 和 V5p 的混合体上训练其 SOTA 3B 参数本地模型。
发展至第六代,TPU Trillium 已经将能效和 HBM 容量提高一倍,峰值性能提高三倍以上。而谷歌也在迭代其软件堆栈,由 TensorFlow 过渡到 JAX 用于处理编译和低级部署优化,TPU 和 JAX 的组合几乎完全取代了谷歌内部用于 AI 工作负载的英伟达 GPU。
本月初,谷歌又发布了第七代 TPU“Ironwood”,作为谷歌首款面向 AI 推理时代的 TPU,单芯片峰值算力可达4614 TFLOPs。据介绍,Ironwood 可扩展至 9216 片芯片集群,性能是第六代 TPU Trillium 的 2 倍,并且能效较之于第一款 Cloud TPU 高出近 30 倍。
此外,HBM 带宽也有所提升,单颗 Ironwood 芯片的内存带宽达 7.2Tbps,是 Trillium 的4.5倍,Ironwood 芯片间互联(ICI)带宽则为 1.2Tbps,是 Trillium 的1.5倍。
除谷歌外,亚马逊也正在加速芯片开发,自 2015 年收购 Annapurna Labs 后,他们推出了第二代 Inferentia 和新的 Trainium 芯片,预计到 2026 年,支出将达到 25 亿美金。第一代运行 Alexa 的后端,而第二代则专注于 LLM 价格和性能的优化。Anthropic 也已选择了亚马逊作为主要算力供应商,并与其一同研发下一代芯片。
微软则推出了自研 AI 芯片 Maia 100 芯片和相关的 Cobalt 100 CPU。在软件方面,微软推出了兼容 Pytorch 的编译器 Maia SDK,依靠 Open AI 的 Triton 框架来取代 CUDA。另外,还推出了一种新的数据格式(MX v1.0)以使跨提供商的量化标准化,这将使自研和第三方芯片无缝互操作,为开发者提供完整的可移植性。
Meta 也在布局 ASIC,早期,Meta 芯片主要为 Instagram 和 Reels 提供 DLRM,随着第二代 MTIA 芯片发布和支持定制软件堆栈,其已开始在 Facebook 和 Instagram 的新闻推送推荐系统中使用推理芯片。
Meta 还在合成数据生成方面扩大芯片使用,此前,Llama 3.1 就使用了这些芯片进行监督微调和数据提炼,以预训练较小的模型。上月,据外媒报道,Meta 已经在小规模部署测试其首款用于 AI 训练的自研芯片。
当前,AI 的工作负载偏向于训练,即使在微软,训练也约占算力需求的六成,理论上来讲,由于训练受限于内存且对空间限制较为敏感,会限制 ASIC 的可行性,但随着重心由训练转向推理,英伟达的压力也正在增大。
业内分析认为,在许多情况下(尤其是对于中型模型),上一代 A100 的性价比都高于 H100,而 AMD 也正在成为更具竞争力的替代品,甚至从长远来看,尤其是对于小模型而言,基于 CPU 的推理或为最佳选择。
2分布式带来的挑战当然,也有人会反驳称,就单芯片性能而言,英伟达 B100 的性能相当于 3 个 Trillium TPU,但有观点认为,单芯片性能并不重要:云巨头能够垂直整合并利用其规模和专业打造总体上更经济、性能更高的分布式系统,对于英伟达而言,这将会是难以竞争或适应的结构性趋势。
随着登纳德缩放定律(Dennard scaling)的失效和 SRAM 逻辑尺寸的缩小,晶体管小型化的回报下降,新节点成本却一路飙升,硬件增益(密度、性能和成本)将越来越多地来自系统技术的协同优化,以及互联、芯片、冷却、电源、机架和数据中心的智能设计。
这在很大程度上得益于先进的封装技术(例如芯片、增加的封装内 HBM)和更大的基板。而更大的增益则来自于数据中心运营商、供应商和系统集成商有意识地根据超大规模需求定制设计的努力。

来源:微软研究
以微软的数据中心设计为例,他们规划了自己的电信光纤网络,并推出新的 ColorZ 可插拔光收发器 + DSP,以支持长距离(<80 公里)数据传输,通过连接数据中心有效提高峰值集群性能。
为了支持海量数据流,微软计划开发用于交换机和收发器的封装内、并最终实现芯片光学器件。目前搭载 Maia 芯片的机架拥有更高的垂直整合度,通过使用定制配电、高带宽以太网协议和专用的机架内“sidekicks”来实现闭环液体冷却,且在提高芯片密度的同时,降低了互连要求和成本。
重要的是,这些服务器集成到现有的微软数据中心基础设施后,可以在现有空间内实现动态功耗优化、更轻松的管理以及更大的计算能力,这是扩展训练运行的必要条件。
谷歌所见略同,他们放弃了大型芯片,转而采用体积更小、成本更低、且具有深度互连的 ASIC 集群。在机架层面,所有 TPU 都具有相同的配置,无需支持不同的环境。此外,它们在机架中集成的服务器主板也更少,这提高了机架密度,并进一步降低了硬件部署的复杂性。
并且谷歌使用 ICI 而非 NVLink,这让他们能通过无源铜缆,以非常低的成本连接 64 个 TPU 的切片。

与英伟达的不同之处还在于,谷歌在数据中心及其他方面均进行了大量的定制化:TPU 设计为在 4096 个芯片的舱内运行,使用定制光学开关(Apollo)代替普通的电子分组交换机,与英伟达相比,大大降低了功耗和停机时间。
在整个数据中心中,TPU 采用环形网络拓扑结构而非 CLOS 架构,改善了延迟和局部性,并结合专有的云网络硬件和软件 (Jupiter)实现跨数据中心组织大规模 TPU 集群,继而实现比竞争对手低近 30% 的性能/TCO(主要得益于芯片成本、停机时间和基础设施支出的降低)。
更重要的是,结合更小的批量大小、数据验证技巧和高级分区,这意味着谷歌可以在多个连接的数据中心训练像 Gemini Pro 1.5 这样的前沿模型。这最大限度地降低了未来训练基础设施的功耗和尺寸要求,并且在提高了硬件模块化的同时,延长了旧芯片/设备的使用寿命。

谷歌数据中心卫星照片
基础设施正在变得愈发分布式,以 Meta 为例,Llama 3 的训练就并非集中于单一数据中心。值得一提的是,由于需要去在包括 AWS、Oracle 等云上做训练,所以 Meta 也正在通过与 HammerSpace 合作将多云多数据中心的数据完全统一起来。
微软也正在为 OpenAI 连接遍布全国的集群。当前,海外巨头都在积极探索实现真正的异步分布式训练。

分布式基础设施是继续扩展和计算新 OOM 的唯一途径。目前,算力仍旧是前沿模型发展的最大制约因素,而多数据中心训练允许使用规模较小、互联互通的数据中心,这不仅降本而且提高了吞吐量。
同时,也加速了基础设施的建设:小型数据中心更容易进行设计、获得土地使用权/许可证、环境影响评估 (EIA) 审批、供应商/总承包商 (GC) 以及建设输电和电压变压器;互联集群则可以帮助克服电网满负荷运行的电力限制,单个数据中心很快就会达到规模极限(例如,10GW 集群约占美国电力的 1%)。

来源:Edward Conard
互联园区和跨区域联网集群能够摆脱单一端点,当前,海外还仅限于使用以太网(<40公里)区域内的数据中心,但也正在计划利用电信光纤,连接远至约 500 公里外的数据中心。
如微软已开始深入研究,并已与 Lumen 等光纤网络提供商斥资超过 100 亿美元。虽然还需要几年时间才能部署,但将提供 1-5Pbit 的带宽和 <1 秒的权重交换,足以实现多区域训练。
这些区域分布式训练系统将持续扩展并成为常态,从而实现更经济、更快速的基础设施建设,同时推动单次运行(x-xxGW)的峰值功率/计算能力。
不过,虽然分布式系统为非传统但资金雄厚的参与者创造了一些机会,但基础设施专业知识至关重要,巨头必须不断扩展以训练出更优秀的模型。长期来看,关键区别在于训练将在 x00MW-xGW 数据中心的“小型”联网园区中进行,而不是在 xxGW 级的单体数据中心中进行。
基于前述趋势,业内分析认为,英伟达将很难在性能或成本上竞争,其既无法与云深度集成,也无法定制硬件,除非他们发展出规模较小的客户,英伟达本身并不适合服务于跨集群或百亿亿次级的情况。

DGX 100服务器(8 A100s)的网络布局
举例来看,英伟达的 Infiniband 网络基础设施并非旨在支持 10 万以上的 GPU 集群,根据设计,每个 GPU 仅连接到单个 NIC(Network Interface Card,网络接口卡),并且每个数据包都必须以相同的顺序传输。
由于模型规模庞大且权重分布不均,单个 NIC、GPU 或光模块故障就可能导致整台服务器瘫痪,迫使数据重新传输,而随着新机架的出现,节点规模也随之增大,这种情况会更加严重,即使频繁设置检查点,也会将 MFU 拖累数个百分点。
此外,尽管英伟达正在推动向 800 Gbps 网络的过渡,但他们面对数据通信领域由超大规模引领的大规模转型表现出措手不及,未来会越来越多地使用可插拔 ZR 光模块来支持连接数据中心所需的超高带宽光纤连接,还将获得新的 DSP 和支持电信硬件(放大器、多路复用器、转发器等)。
这会破坏英伟达的网络堆栈,并且使 Coherent、Lumentum、Inphi、Cisco 和 Nokia 等供应商受益。
值得一提的是,英伟达还面临着一个最紧迫的问题——容错,在训练过程中处理多个故障点时,容错能力是确保可靠性和高利用率的关键。规模较小的客户依赖于开源框架,但对于规模非常大的集群,英伟达的网络设计和硬件选择并未提供内置保护。
如今,许多巨头依赖于内部解决方案:谷歌的 Pathways 比其他解决方案在边缘情况和故障类型方面表现更优,同时能够灵活处理同步和异步数据流。Pathways 还擅长检测和修复几乎无法察觉的、绕过 ECC 的 GPU 内存问题,而英伟达的诊断工具 (DCGM) 可靠性要低得多。
英伟达也难以提供具有竞争力的分区和集群管理软件,其 BaseCommand 系统(基于 Kubernetes 构建)旨在实现跨平台,并兼容异构系统。
然而,其他厂商拥有更完善的专有集成解决方案,如谷歌的 Borg和微软的 Singularity 能够更好地处理规模化的虚拟机/容器管理、透明迁移以及 GPU 工作负载的调度/管理。谷歌甚至还通过 MegaScaler 在单个园区内外的 TPU Pod 之间同步划分工作负载。
较之英伟达,云巨头在半导体、基础设施和模型层面的垂直整合,能够提升其系统级理解、可观察性、协同优化和故障分析能力。
当前英伟达也已在通过 Blackwell 和 GB200 解决结构性问题。在硬件层面,安装了机架宽的铜缆连接背板,并采用液冷技术来提高密度、能效和总体拥有成本 (TCO),并推出了基于以太网的数据中心级网络解决方案 Spectrum-X。
在软件方面,英伟达正在积极更新 DCGM 软件,并推出专用的可靠性、可用性和可维护性 (RAS) 引擎,旨在通过传感器级芯片数据预先向运营商发出故障警报,从而帮助缓解持续存在的 NIC/Infiniband 故障。
然而,综合来看,这还不够。
如前文所述,几乎所有关键基础设施软件的内部都存在更好的版本,超大规模数据中心也早已实现了规模化和垂直整合。
以冷却为例,早在英伟达强制使用液冷前,谷歌于 2018 年就通过 TPU v3 部署强制使用液冷,谷歌的 TPU v3 部署每千瓦时用水量比微软的英伟达数据中心少 2 倍,PUE(电源使用效率)为 1.1,而微软的 PUE 则>1.4。这意味着英伟达在每个超大规模数据中心损失了 30% 的有效电力和 50% 的占地面积。
英伟达意识到了这一点,并通过布局 DGX Cloud、NGC 等努力提升价值链,也前瞻性收购了 Mellanox,但未来正朝着大型园区和云的方向发展,而英伟达却主要在数据中心层面进行优化,其正面临着前所未有的长期挑战。
参考链接:
https://mohitdagarwal.substack.com/p/from-dominance-to-dilemma-nvidia


