在当地时间3月18日召开的GTC大会上,英伟达CEO黄仁勋发布了全新的Blackwell Ultra GPU,以及基于该芯片的NVL72服务器。同时,还预告了下一代的Rubin GPU及Rubin NVL144和Rubin Ultra NVL576服务器。这些产都将成为英伟达接下来开拓AI市场的新“利器”。
1、Blackwell Ultra还在挤牙膏:仅HBM3e容量升级至288GB
英伟达去年GTC发布Blackwell架构,并推出GB200芯片,今年的正式名称做了微调,不叫之前传言的GB300,直接就称之为Blakwell Ultra。
但从硬件来看,就是在去年基础上更换了新的HBM内存。一句话理解就是,Blackwell Ultra= Blackwell大显存版本。
Blackwell Ultra由两颗台积电N4P(隶属于5nm家族的4nm加强版)工艺Blackwell GPU+Grace CPU+更大容量的HBM封装而来,即搭配了更先进的12层堆叠的HBM3e,显存容量提升至为288GB,和上一代一样支持第五代NVLink,可实现1.8TB/s的片间互联带宽。
NVLink历代性能参数
基于存储的升级,Blackwell GPU的FP4精度算力可以达到15PetaFLOPS,基于Attention Acceleration机制的推理速度,比Hopper架构芯片提升2.5倍。
Blackwell Ultra NVL72官方图
2、Blackwell Ultra NVL72
和GB200 NVL72一样,英伟达今年也推出了类似的产品Blackwell Ultra NVL72机柜,一共由18个计算托盘构成,每个计算托盘包含4颗Blackwell Ultra GPU+2颗Grace CPU,总计也就是72颗Blackwell Ultra GPU+36颗Grace CPU,HBM容量达到了20TB,总带宽576TB/s,外加9个NVLink交换机托盘(18颗NVLink 交换机芯片),节点间NVLink带宽130TB/s。
机柜内置72张CX-8网卡,提供14.4TB/s带宽,Quantum-X800 InfiniBand和Spectrum-X 800G以太网卡则可以降低延迟和抖动,支持大规模AI集群。此外,机架还整合了18张用于增强多租户网络、安全性和数据加速BlueField-3 DPU。
英伟达说这款产品是“为AI推理时代”专门定制,在进行 FP4 精度的推理任务时,能够达到 1.1 ExaFLOPS(每秒百亿亿次浮点运算);在进行 FP8 精度的训练任务时,性能为 1.2 ExaFLOPS。相比前一代产品GB200 NVL72的AI性能提升到了1.5倍,HBM容量也提升到了1.5倍,支持的40TB快速内存容量也是前代的1.5倍,网卡总带宽是前代的2倍。相比Hopper架构同定位的DGX机柜产品,可以为数据中心提供50倍增收的机会。应用场景包括推理型AI、Agent以及物理AI(用于机器人、智驾训练用的数据仿真合成)。
Blackwell Ultra NVL72和GB200 NVL72硬件参数
根据官方提供的信息,6710亿参数DeepSeek-R1的推理,基于H100产品可实现每秒100tokens,而采用Blackwell Ultra NVL72方案,可以达到每秒1000 tokens。
换算成时间,同样的推理任务,H100需要跑1.5分钟,而Blackwell Ultra NVL72 15秒即可跑完。
根据英伟达提供的信息,Blackwell NVL72相关产品预计在2025年下半年上市。客户包括服务器厂商、云厂、算力租赁服务商几大类:
服务器厂商
Cisco/Dell/HPE/Lenovo/超微等15家制造商
云厂
AWS/Google Cloud/Azure/Oracle云等主流平台
算力租赁服务商
CoreWeave/Lambda/Yotta等
按照英伟达的路线图,GTC2025的主场就是Blackwell Ultra。
3、Vera Rubin NVL144
黄仁勋在此次GTC大会上预告了2026年上市的基于Rubin架构的下一代GPU以及基于该GPU的Vera Rubin NVL144
Vera Rubin NVL144则集成的72颗Vera CPU+144颗 Rubin GPU,采用288GB显存的HBM4芯片,显存带宽13TB/s,搭配第六代NVLink和CX9网卡。
英伟达官方提供的Rubin NVL144参数
这个产品有多强呢?FP4精度的推理算力达到了3.6ExaFLOPS,FP8精度的训练算力也达到了1.2ExaFlOPS,性能是Blackwell Ultra NVL72的3.3倍。同时还配备了 HBM4,带宽为 13TB/s;拥有 75 TB 的快速内存,容量是前代的 1.6 倍;支持 NVLink 6,带宽为 260 TB/s,是前代的 2 倍。支持 CX9网卡,总带宽为 28.8 TB/s,是前代的 2 倍。
5、Rubin Ultra NVL576
如果你觉得还不够,没关系,2027年还有更强的 Rubin Ultra NVL576机柜,FP4精度的推理和FP8精度的训练算力分别是15ExaFLOPS和5ExaFLOPS,14倍于Blackwell Ultra NVL72。
英伟达官方提供的Rubin Ultra NVL576参数
在硬件配置上,Rubin Ultra 的 Veras 系统延续了 88 个定制 Arm 核心的设计,每个核心支持 176 个线程,并通过 NVLink-C2C 提供 1.8 TB/s 的带宽。
而 GPU 方面,Rubin Ultra 集成了 4 个 Reticle-Sized GPU,每颗 GPU 提供 100 petaflops 的 FP4 计算能力,并配备 1TB 的 HBM4e 内存,在性能和内存容量上都达到了新的高度。
在此次GTC大会上,黄仁勋还正式揭晓下一代 AI GPU芯片的命名——物理学家费曼(Feynman)。
编辑:芯智讯-林子