加速万亿大模型！黄仁勋官宣英伟达GPU新架构：性能狂飙30倍

文丨Congerry

今天凌晨4点，英伟达在加州圣何塞拉开了年度 GPU 技术大会(GTC 2024)的序幕。

英伟达创始人兼CEO黄仁勋发表了题为"见证 AI 变革的时刻"的主旨演讲，分享了关于人工智能、深度学习、加速计算以及英伟达的最新技术和产品的重要信息。

其中包括搭载B200芯片的GB200 Grace Blackwell超级芯片系统（Blackwell GPU）、人形机器人基础模型Project GR00T、计算平台Jetson Thor等。

NVIDIA首席执行官黄仁勋表示，Blackwell GPU将成为新工业革命的驱动力，这一平台在万亿参数大型语言模型上释放实时生成式人工智能。

Blackwell（左边）VS Hopper（右边）

2080 亿个晶体管的 Blackwell，能效与推理性能的显著提升

Blackwell 的命名灵感来源于David Harold Blackwell，他是加州大学伯克利分校的数学家，专门研究博弈论和统计学，也是美国第一位入选国家科学院的黑人学者。

据NVIDIA介绍，Blackwell的架构包含了全球最强大的芯片B200，拥有2080亿个晶体管以及GB200超级芯片，后者通过900GB/秒的超低功耗互连将两个B200 GPU连接到一个Grace CPU上。

B200

GB200

具体来说，Blackwell结合了两个使用TSMC 4NP工艺制造的芯片，并通过每秒10TB的速度连接，使它们能够作为一个单一的CUDA GPU运行。

黄仁勋形容这一系统为“一个幸福的大家庭”，强调了其内存一致性设计，使得多个GPU能够像一个统一的计算单元一样协同工作。

此外，Blackwell还包括第二代Transformer引擎，支持FP4精度的AI应用，增强的NVLink通信技术用于多达576个GPU之间的数据交换，以及新的RAS引擎，支持AI预测性维护等功能。英伟达还专门设计了一个解压缩引擎以加速数据库查询。

Blackwell GPU将提供10 petaFLOPS的FP8 AI计算能力和20 petaFLOPS的FP4 AI计算能力。使用新的Transformer引擎和所谓的“微张量缩放”技术时，可以实现两倍的计算能力、模型大小和带宽。该芯片还配备了192GB的HBM3e内存。

与H100 GPU相比，Blackwell提供了四倍的训练性能，能效高达25倍，推理性能高达30倍。这一显著提升表明NVIDIA正在应对目前正试图从市场领导者手中夺取市场份额的面向推理的芯片的竞争。

然而，这种性能提升仅在使用所谓的混合专家模型（如GPT-4）时实现；对于传统的大型变换模型（如GPT-3），性能提升为7倍。不过，混合专家模型越来越重要，谷歌的Gemini模型也基于这一原理。

这种显著的飞跃得益于新的NVLink和NVLink Switch 7.2，它们使得GPU之间的通信更加高效——此前这在混合专家模型中是一个瓶颈。

另外，NVIDIA推出了新一代的DGX SuperPOD，这是一个具有11.5 ExaFLOPs FP4精度AI超级计算性能和240TB快速内存的高效液冷机架规模架构。

该系统能够通过增加额外的机架扩展至数万个芯片。

DGX SuperPOD的核心是GB200 NVL72，它通过NVIDIA第五代NVLink连接了36个NVIDIA GB200超级计算芯片，每个芯片配备36个Grace CPU和72个Blackwell GPU，形成了一个超级计算机。

GB200 NVL72

NVIDIA表示，GB200超级芯片在大型语言模型的推理工作负载中，性能是同等数量的Nvidia H100 Tensor Core GPU的30倍。

黄仁勋表示，一个DGX GB200 NVL72——得益于新的NVLink芯片——基本上是一个“巨大的GPU”。它提供了720 PetaFLOPS的FP8训练性能，以及1.44 ExaFLOPS的FP4推理性能。

NVIDIA还推出了DGX B200系统，这是一个用于AI模型训练、调优和推理的平台。DGX B200是第六代气冷DGX设计的平台，连接了八个B200 Tensor Core GPU到CPU。

这两个系统都将在今年晚些时候推出。

英伟达：硬件做，软件我也做

除了硬件，英伟达也正通过其强大的软件实力，进一步巩固其在生成式AI领域的领先地位。

今天，英伟达宣布推出一系列企业级生成式AI微服务，旨在帮助开发者利用其广泛的CUDA GPU安装基础，快速创建和部署生成式AI Copilots。

黄仁勋说，生成式人工智能改变了应用程序的编写方式。未来的软件开发将不再是从头编写代码，而是组装AI模型，分配任务，并审查中间结果。

英伟达在新闻稿中说，NVIDIA NIM（NVIDIA推理微服务）是基于NVIDIA的加速计算库和生成式AI模型构建的，支持行业标准的API，易于集成，并针对新GPU进行了优化，同时不断进行安全漏洞扫描。

NVIDIA的客户可以直接使用NIM微服务，或者NVIDIA可以帮助他们构建专有的AI和copilot系统，这些系统能够学习特定公司的专业技能，创造宝贵的新服务。

黄仁勋强调，企业IT行业拥有丰富的工具和数据资源，这些资源可以转化为AI copilot，极大地提升工作效率。

英伟达也看好具身智能

除了AI，英伟达还十分看好具身智能，并为此发布了Project GR00T——一个人形机器人通用基础模型，以及专为人形机器人设计的Jetson Thor计算机。

Project GR00T模型经过NVIDIA GPU加速的模拟训练，使人形机器人能够从少量人类示范中学习，包括模仿学习和使用NVIDIA Isaac Lab进行强化学习，以及从视频数据生成机器人动作。GR00T模型接受多模态指令和过去的互动作为输入，并产生机器人执行的动作。

Jetson Thor旨在执行复杂任务并与人和机器进行安全、自然的交互。这计算平台具有针对性能、功耗和尺寸进行优化的模块化架构。Jetson Thor系统可以模拟运动，理解自然语言，并具备人类动作观察功能，使其在人形机器人项目中发挥关键作用。

黄仁勋表示：“开发通用人形机器人基础模型是当今AI领域中最令人兴奋的课题之一。”

黄仁勋在主题演讲中展示了多个由GR00T驱动的人形机器人完成各种任务的场景，这些机器人来自Agility Robotics、Apptronik、傅利叶智能和宇树科技等合作伙伴。

随着人形机器人领域的热度不断上升，NVIDIA正将这一领域置于战略重点。

“机器人的ChatGPT时刻可能即将到来。”

黄仁勋分享其他进展

除了上面所提到的，黄仁勋还分享了英伟达在其他领域的一些新进展。

在电信领域，NVIDIA宣布推出6G研究云，这是一个由生成式AI和Omniverse驱动的平台，旨在推动下一代通信技术的发展。

在半导体设计和制造方面，NVIDIA与TSMC和Synopsys合作，将其突破性的计算光刻平台cuLitho投入生产，显著加速半导体制造中最计算密集的工作负载。

NVIDIA还推出了地球气候数字孪生平台，现已可用，能够进行高分辨率的气候和天气模拟，加速气候预测。

在医疗保健领域，NVIDIA正在推出新型生物学软件，以及超过两打的新微服务，使全球医疗保健企业能够利用生成式AI的最新进展。

Omniverse平台将AI带入物理世界，通过其云API，开发人员能够将核心Omniverse技术集成到现有的设计和自动化软件应用中，或用于测试和验证自主机器的仿真工作流程。

NVIDIA还宣布了与Apple Vision Pro的合作，将 Omniverse 引入 Apple Vision Pro，新的 Omniverse Cloud API 可以让开发人员将交互式工业数字孪生流传输到 VR 耳机中。

今年英伟达一跃成为全球市值第三的科技巨头，受到了资本的强烈追捧。看完GTC大会之后，可以发现英伟达不仅在“卖铲子”，还在各个领域尝试挖金子。

玩酷网

加速万亿大模型！黄仁勋官宣英伟达GPU新架构：性能狂飙30倍

趣唠科技不打烊