在上个月的 GPU 技术大会上,Nvidia 打破常规,改变了对 GPU 的定义标准。
CEO Jensen Huang 在 GTC 大会上解释说:"我之前犯了一个错误:Blackwell 实际上是在一个 Blackwell 芯片中集成了两个 GPU。我们之前把它称为一个 GPU 是错误的,因为这会搞乱所有的 NVLink 命名规则。"
然而,Nvidia 从计算 SXM 模块转向计算 GPU 芯片的这一转变,不仅仅是为了简化 NVLink 型号和命名规则。这可能会使 Nvidia 能够收取的 AI Enterprise 许可费用翻倍。
Nvidia 的 AI Enterprise 套件(包含多个 AI 框架,以及对其推理微服务 NIMs 的访问权限)每个 GPU 每年收费 4,500 美元,或在云端每小时 1 美元。这意味着配备八个模块的 Nvidia HGX B200(每个模块一个 Blackwell GPU)每年需要支付 36,000 美元,或在云端每小时 8 美元。
但在新的 HGX B300 NVL16 中,Nvidia 现在将每个芯片都计为一个 GPU。由于系统仍有八个模块,每个模块包含两个芯片,总数达到了 16 个 GPU。这意味着,如果 Nvidia 的 AI Enterprise 订阅定价保持不变,其最新的 HGX 设备的费用将翻倍。
这种命名规则的改变与去年的 Blackwell 系统有所不同。在我们的 Blackwell 发布报道中,Nvidia 反对我们将 Blackwell 称为"芯片组"架构(在一个处理器封装中链接多个独立芯片或芯片组),而是主张它是"一个作为统一单一 GPU 运行的双光刻限制芯片架构"。
相比去年的 B200,最新的 B300 GPU 并没有强大太多。简单回顾一下,HGX B300 的内存容量从 B200 的 1.5TB 提升到 2.3TB,增加了约 1.5 倍,而 4 位浮点 (FP4) 性能提升了约 50%,每系统达到略高于 105 个密集 petaFLOPS。然而,性能提升仅限于能够利用 FP4 性能的工作负载。在更高精度下,B300 相比旧系统并无浮点性能优势。
令人困惑的是,这种变化只适用于 Nvidia 的风冷 B300 设备,而不适用于更强大的 GB300 NVL72 系统,后者仍将封装计为 GPU。
那么这是为什么呢?根据 Nvidia 超大规模和 HPC 部门副总裁兼总经理 Ian Buck 的说法,这是出于技术原因。
主要区别在于 HGX 机箱上提供的 B300 封装缺少了前代 Blackwell 加速器中的芯片间互连。这意味着两个芯片实际上是共享一个封装的两个独立的 144GB GPU。Buck 解释说,这使 Nvidia 能够实现更好的功耗和散热效果。但这也带来了一些缺点。由于两个芯片之间没有 C2C 互连,如果一个芯片要访问另一个芯片的内存,就必须离开封装,通过 NVLink 交换机,然后进行 U 型转向。
相比之下,GB300 保留了 C2C 接口,避免了封装外的内存绕行。由于两个芯片可以直接通信和共享内存,它们被视为一个统一的 GPU——至少在 Nvidia 的软件和许可方面是这样。
然而,这种技术例外不会持续太久。随着 Nvidia Vera Rubin 超级芯片的推出,它将采用 B300 式的命名规则,开始将单个芯片计为 GPU,因此有了 NVL144 的命名。
这也解释了为什么 Nvidia 的 Vera Rubin Ultra 平台(计划于 2027 年末推出)能够声称每机架拥有 576 个 GPU。正如我们之前探讨的,它实际上只有 144 个模块(在 Blackwell Ultra 之前我们会认为是一个 GPU),每个模块包含四个芯片。
如果要猜测的话,我们认为在 Nvidia 发布 Blackwell 的一年后,这家 GPU 巨头意识到他们错失了订阅软件收入。我们之所以这样说,是因为当我们询问 Nvidia 这种命名变化将如何影响 AI Enterprise 许可时,他们表示定价细节尚未确定。
"B300 的定价细节仍在敲定中,目前除了 GTC 主题演讲中展示的内容外,暂时没有关于 Rubin 的更多细节可以分享,"一位发言人向 El Reg 表示,并明确这也包括 AI Enterprise 的定价。