黄仁勋演讲官宣未来三代GPU架构规划图

北京时间 6 月 2 日晚，英伟达创始人兼 CEO 黄仁勋如期带来了这场“AI 时代如何助推全球新工业革命”的主题演讲。

围绕最受业界关注的芯片产品方面，黄仁勋现场宣布（更确切地说像是“剧透”）了未来三代的 GPU 架构、下一代 CPU 架构，以及全新 GPU+CPU 二合一超级芯片。

（来源：英伟达官网）

演讲中，他展示还了英伟达芯片产品的年度升级周期计划，将坚持数据中心规模、一年节奏、技术限制以及一个架构的路线。换句话说，采用时下最先进的半导体制程工艺，使用统一架构覆盖整个数据中心 GPU 产品线，每年更新迭代一次（以往通常是每两年更新一代）。

要知道，英伟达今年 3 月刚发布了新架构 Blackwell，不到 3 个月又直接放大招，“剧透”了未来三代的 GPU 产品路线，新架构直接规划到 2027 年。

整体来看，英伟达 Blackwell 芯片已经开始投产，计划将在 2025 年推出 Blackwell 的增强版 Blackwell Ultra 芯片；2026 年，计划推出下一代 Rubin 架构的芯片；2027 年推出 Rubin 的升级版 Rubin Ultra 芯片。

随着目前英伟达旗下最高性能的采用 Blackwell 架构的 GPU 已经投产，相关产品今年将会陆续上市，包括用于数据中心领域的 B100/B200/GB200 系列，用于游戏领域的 RTX 50 系列。

（来源：英伟达官网）

据介绍，Blackwell 架构其实是将两个芯片结合在一起，以确保两者可以作为一个整体实现无缝运行，Blackwell GPU 包含 2080 亿个晶体管，采用台积电 4NP 工艺来生产，可以支持多达 10 万亿个参数的 AI 模型。

而超级芯片 GB200 则是由两个 Blackwell GPU 和一个 Grace CPU 组合而成，可以为大语言模型（LLM）推理负载提供 30 倍的性能提升并将成本和能耗降低 25 倍。

（来源：英伟达官网）

随着英伟达 GPU 架构的迭代，算力大幅提升，功耗不断优化，以拥有 1.8 万亿参数的 GPT-4 为例，8 年内将其推理功耗降低至原来的 1/45000，训练功耗降低至原来的 1/350。与此同时，这 8 年间英伟达芯片算力的提升幅度似乎让摩尔定律“失效”了。

（来源：英伟达官网）

细看产品，采用 Rubin 架构平台的芯片包括 Rubin 和 Rubin Ultra，其中，Rubin GPU 将采用 8 层堆栈的 HBM4 内存，Rubin Ultra GPU 则采用更高规格的 12 层堆栈的 HBM4 内存。

早在上个月，天风国际证券分析师郭明錤曾预测，英伟达的下一代 R 系列 AI 芯片（代号 R100）或将采用台积电 3 纳米制程工艺，使用 CoWoS-L 封装技术，搭载新一代高带宽内存芯片单元（HBM4），芯片有望在 2025 年第四季度实现大规模生产，而与之配套的系统和机柜解决方案或将于 2026 年第一季度开始大规模生产。现场披露的参数和时间规划与此前的爆料大体一致。

在 CPU 产品方面，英伟达此前已经推出了 Grace 架构 CPU 产品，下一代 CPU 架构名为 Vera，与此同时，采用 Rubin GPU 和 Vera CPU 的下一代超级芯片也在开发之中，其将采用第六代 NVLink 互连总线，带宽高达 3.6TB/s，是上一代 NVLink 5 的两倍之多。

至于名称的由来，此前 Blackwell 架构名称是为了纪念杰出数学家 David H. Blackwell，下一代 CPU 架构 Vera、GPU 架构 Rubin 的名称则是来源于宇宙暗物质研究先驱、美国女天文学家 Vera Rubin。

（来源：英伟达官网）

围绕加速运算，黄仁勋在演讲中指出，“随着 CPU 扩展速度放缓，最终会基本停止，然而我们需要处理的数据继续呈指数级增长，但处理的性能却没有提升，那将面临计算膨胀和计算成本的提升。”

在他看来，通过计算机增强 CPU 提供加速工作，让每一个处理密集型应用程序都得到加速，让每一个数据中心也都被加速。英伟达通过为 CPU 添加专用的辅助处理器（GPU），来实现对于密集型应用程序的加速，由于两个处理器可以并行工作，能够实现更加快速的运算，可以将 100 个单位的时间加速到仅需 1 个单位的时间，并声称“买得越多，省得越多”。

（来源：英伟达官网）

黄仁勋在现场展示了 DGX BlackWell 系统的真机，体积甚至比冰箱还要高出不少，而由众多 BlackWell 系统集群组成的“AI 工厂”面积更是堪比篮球场，其包含了 3.2 万个 GPU。他还将一块 RTX 游戏显卡和 DGX BlackWell 数据中心机柜进行了体积对比，差别之大一目了然。

（来源：英伟达官网）

数据中心和游戏显卡明显的体积差距似乎也很好地契合了不久前英伟达披露的第一季度不同业务的营收占比。据悉，英伟达第一季度总营收 260 亿美元，其中数据中心营收占比达 87%（226 亿美元），远远领先于游戏业务（26 亿美元）、汽车业务（3.29 亿美元）、专业视觉业务和 OEM 及其他业务。

（来源：英伟达官网）

为了推动下一波生成式 AI 的发展，英伟达联合全球多家计算机制造商发布了一个以英伟达 Blackwell 架构支撑的系统列阵，以支持企业打造“AI 工厂”和数据中心。

正如此次演讲主题“AI 时代如何助推全球新工业革命”，在黄仁勋看来，新的运算时代已经拉开帷幕，而这一场产业变革的驱动力正是 AI，“AI 工厂”将掀起一场新的产业革命。

事实上，这并非是黄仁勋首次提及“AI 工厂”的概念，在不久前的英伟达财报公布之际，他在财报电话会议上表示，从服务器、网络和基础设施制造商到软件开发商，整个行业都在为 Blackwell 加速 AI 驱动的创新做好准备。下一场工业革命已经开始，各国政府和企业正在与英伟达合作将数万亿美元的传统数据中心转移到加速计算上，并建立一种新型数据中心“AI 工厂”，以生产新的大宗商品 —— AI。

（来源：英伟达官网）

为了让各种规模的企业能够更便捷地部署 AI，英伟达于今年 3 月推出了 NIM 云原生微服务。据了解，NIM（Nvidia Inference Microservices）是一套经过深度优化的云原生微服务，旨在帮助开发者或企业轻松构建 AI 应用，简化生成式 AI 模型在云、数据中心和 GPU 加速工作站的部署过程（部署时间最快可从数周缩短到数分钟），其采用行业标准 API，将 AI 模型开发和生产包装的复杂性抽象化，从而扩展了开发者的使用范围，开发者或企业均可基于 NIM 运行生成文本、图像、视频、语音以及数字人等的各种应用程序。

机器人也是此次演讲的一个重点，在黄仁勋看来，“机器人时代已经到来，未来不只是机器人，所有会移动的东西都将实现自主化。”

据介绍，包括 Alphabet 子公司 Intrinsic、比亚迪、西门子等全球多家机器人开发团队都在采用英伟达机器人开发的技术平台 Isaac，该技术平台拥有 AI 基础模型、仿真技术以及英伟达加速库，而其模块化的设计可使公司采用一种或多种技术集成到自家的技术栈中。

除此之外，黄仁勋在演讲中介绍了在通信和软件等方面的进展，比如面向超大规模生成式 AI 的加速以太网网络平台 Spectrum-X，目前其已被业界广泛使用，接下来英伟达将加快新品发布计划。住的注意的是，此前英伟达预计 Spectrum-X 在未来一年内将成为一个数十亿美元的产品线。

黄仁勋还展示了一个工具和 SDK 集合“RTX AI Toolkit”，旨在帮助 Windows 开发者定制优化本地部署模型，其 Stable Diffusion 推理速度甚至可以达到 Mac 的 7 倍。

据调研数据显示，包括英伟达、亚马逊、谷歌、微软等在内的全球 7 大科技巨头，每年在 AI 及云基础设施方面投资金额达 4000 亿美元，涵盖 AI 芯片、大模型等领域，尤其以 AI 芯片硬件层面竞争最为激烈，

然而，主导全球 AI 芯片市场的英伟达却正在面临竞争对手以及客户的“围攻”，竞争对手比如 AMD 不必多说，其客户比如亚马逊、谷歌、微软等也均在开发自家 AI 芯片。

摩根大通在一份研报中指出，“长远来看，在芯片、硬件以及软件平台方面，英伟达将继续保持领先竞争对手一到两步的节奏，并且拥有超 400 万 CUDA 开发从业者的生态系统支撑，英伟达通过更密集的新品发布和更多的产品细分，或将进一步拉大与竞争对手的差距。”

参考资料：

1.https://www.nvidia.cn/

2.https://nvidianews.nvidia.com/multimedia

3.https://nvidianews.nvidia.com/news/computer-industry-ai-factories-data-centers

玩酷网

黄仁勋演讲官宣未来三代GPU架构规划图

问芯科技吗