黄仁勋带着他的全新AI“军火库”来了！

在当地时间3月18日召开的GTC大会上，英伟达CEO黄仁勋发布了全新的Blackwell Ultra GPU，以及基于该芯片的NVL72服务器。同时，还预告了下一代的Rubin GPU及Rubin NVL144和Rubin Ultra NVL576服务器。这些产都将成为英伟达接下来开拓AI市场的新“利器”。

1、Blackwell Ultra还在挤牙膏：仅HBM3e容量升级至288GB

英伟达去年GTC发布Blackwell架构，并推出GB200芯片，今年的正式名称做了微调，不叫之前传言的GB300，直接就称之为Blakwell Ultra。

但从硬件来看，就是在去年基础上更换了新的HBM内存。一句话理解就是，Blackwell Ultra= Blackwell大显存版本。

Blackwell Ultra由两颗台积电N4P（隶属于5nm家族的4nm加强版）工艺Blackwell GPU+Grace CPU+更大容量的HBM封装而来，即搭配了更先进的12层堆叠的HBM3e，显存容量提升至为288GB，和上一代一样支持第五代NVLink，可实现1.8TB/s的片间互联带宽。

NVLink历代性能参数

基于存储的升级，Blackwell GPU的FP4精度算力可以达到15PetaFLOPS，基于Attention Acceleration机制的推理速度，比Hopper架构芯片提升2.5倍。

Blackwell Ultra NVL72官方图

2、Blackwell Ultra NVL72

和GB200 NVL72一样，英伟达今年也推出了类似的产品Blackwell Ultra NVL72机柜，一共由18个计算托盘构成，每个计算托盘包含4颗Blackwell Ultra GPU+2颗Grace CPU，总计也就是72颗Blackwell Ultra GPU+36颗Grace CPU，HBM容量达到了20TB，总带宽576TB/s，外加9个NVLink交换机托盘（18颗NVLink 交换机芯片），节点间NVLink带宽130TB/s。

机柜内置72张CX-8网卡，提供14.4TB/s带宽，Quantum-X800 InfiniBand和Spectrum-X 800G以太网卡则可以降低延迟和抖动，支持大规模AI集群。此外，机架还整合了18张用于增强多租户网络、安全性和数据加速BlueField-3 DPU。

英伟达说这款产品是“为AI推理时代”专门定制，在进行 FP4 精度的推理任务时，能够达到 1.1 ExaFLOPS（每秒百亿亿次浮点运算）；在进行 FP8 精度的训练任务时，性能为 1.2 ExaFLOPS。相比前一代产品GB200 NVL72的AI性能提升到了1.5倍，HBM容量也提升到了1.5倍，支持的40TB快速内存容量也是前代的1.5倍，网卡总带宽是前代的2倍。相比Hopper架构同定位的DGX机柜产品，可以为数据中心提供50倍增收的机会。应用场景包括推理型AI、Agent以及物理AI(用于机器人、智驾训练用的数据仿真合成)。

Blackwell Ultra NVL72和GB200 NVL72硬件参数

根据官方提供的信息，6710亿参数DeepSeek-R1的推理，基于H100产品可实现每秒100tokens，而采用Blackwell Ultra NVL72方案，可以达到每秒1000 tokens。

换算成时间，同样的推理任务，H100需要跑1.5分钟，而Blackwell Ultra NVL72 15秒即可跑完。

根据英伟达提供的信息，Blackwell NVL72相关产品预计在2025年下半年上市。客户包括服务器厂商、云厂、算力租赁服务商几大类：

服务器厂商

Cisco/Dell/HPE/Lenovo/超微等15家制造商

云厂

AWS/Google Cloud/Azure/Oracle云等主流平台

算力租赁服务商

CoreWeave/Lambda/Yotta等

按照英伟达的路线图，GTC2025的主场就是Blackwell Ultra。

3、Vera Rubin NVL144

黄仁勋在此次GTC大会上预告了2026年上市的基于Rubin架构的下一代GPU以及基于该GPU的Vera Rubin NVL144

Vera Rubin NVL144则集成的72颗Vera CPU+144颗 Rubin GPU，采用288GB显存的HBM4芯片，显存带宽13TB/s，搭配第六代NVLink和CX9网卡。

英伟达官方提供的Rubin NVL144参数

这个产品有多强呢？FP4精度的推理算力达到了3.6ExaFLOPS，FP8精度的训练算力也达到了1.2ExaFlOPS，性能是Blackwell Ultra NVL72的3.3倍。同时还配备了 HBM4，带宽为 13TB/s；拥有 75 TB 的快速内存，容量是前代的 1.6 倍；支持 NVLink 6，带宽为 260 TB/s，是前代的 2 倍。支持 CX9网卡，总带宽为 28.8 TB/s，是前代的 2 倍。

5、Rubin Ultra NVL576

如果你觉得还不够，没关系，2027年还有更强的 Rubin Ultra NVL576机柜，FP4精度的推理和FP8精度的训练算力分别是15ExaFLOPS和5ExaFLOPS，14倍于Blackwell Ultra NVL72。

英伟达官方提供的Rubin Ultra NVL576参数

在硬件配置上，Rubin Ultra 的 Veras 系统延续了 88 个定制 Arm 核心的设计，每个核心支持 176 个线程，并通过 NVLink-C2C 提供 1.8 TB/s 的带宽。

而 GPU 方面，Rubin Ultra 集成了 4 个 Reticle-Sized GPU，每颗 GPU 提供 100 petaflops 的 FP4 计算能力，并配备 1TB 的 HBM4e 内存，在性能和内存容量上都达到了新的高度。

在此次GTC大会上，黄仁勋还正式揭晓下一代 AI GPU芯片的命名——物理学家费曼(Feynman)。

编辑：芯智讯-林子

玩酷网

黄仁勋带着他的全新AI“军火库”来了！

智慧之芯