英伟达所谓的“热门芯片”,其实是“热门平台”

袁遗说科技 2024-08-24 21:10:40

本文由半导体产业纵横(ID:ICVIEWS)编译自nextplatform

英伟达正致力于系统级和数据中心级的工程项目,旨在打造能够应对复杂生成式AI挑战的高级系统与平台。

本月早些时候,英伟达遭遇了罕见的坏消息,当时有报道称,由于设计缺陷,该公司备受期待的“Blackwell” GPU 加速器可能会延迟三个月之久。然而,英伟达发言人表示,一切都在按计划进行,一些供应商表示,一切都没有改变,而另一些供应商则表示,出现了一些正常的延误。

业内人士预计,当英伟达于下周三公布其2025财年第二季度财务业绩时,用户将对Blackwell的情况有更多的了解。

据悉,Blackwell 芯片——B100、B200 和 GB200——将成为下周在加州斯坦福大学举行的今年 Hot Chips 会议的一个重点,英伟达将介绍其架构,详细介绍一些新的创新,概述在设计芯片时使用 AI 的情况,并讨论用于运行这些日益增长的 AI 工作负载的数据中心中的液体冷却研究。据英伟达加速计算产品总监戴夫·萨尔瓦多称,该公司还将展示已经在其一个数据中心运行的 Blackwell 芯片。

英伟达谈论的大部分关于 Blackwell 的事情都是已知的,例如 Blackwell Ultra GPU 将于明年推出,下一代 Rubin GPU 和 Vera CPU 将于 2026 年开始推出。然而,Salvator 强调,在谈论 Blackwell 时,重要的是将其视为一个平台,而不是单个芯片。Salvator 在本周为 Hot Chips 做准备的简报会上对记者和分析师说。

“当你想到英伟达以及我们构建的平台时,GPU、网络甚至我们的CPU都只是开始,”他说,“我们正在做系统级和数据中心级工程,以构建这些能够真正走出去并解决那些真正棘手的生成式 AI 挑战的系统与平台。我们已经看到模型的规模随着时间的推移而增长,而且大多数生成式 AI 应用程序都需要实时运行,对推理的要求在过去几年中急剧增加。实时大型语言模型推理需要多块 GPU,在不远的将来还需要多台服务器节点。”

这不仅包括 Blackwell GPU 和 Grace CPU,还包括 NVLink Switch 芯片、Bluefield-3 DPU、ConnextX-7 和 ConnectX-8 NIC、Spectrum-4 以太网交换机和 Quantum-3 InfiniBand 交换机。Salvator 还展示了用于 NVLink Switch(下)、计算、Spectrum-X800 和 Quantum-X800 的不同信息。

英伟达在今年 3 月的 GTC 2024 大会上推出了备受期待的 Blackwell 架构,超大规模厂商和原始设备制造商也迅速与之签约。该公司将其目标直指快速扩张的生成式人工智能领域,该领域的大型语言模型(LLM)将变得更加庞大,Meta 的 Llama 3.1 就是证明,该模型于 6 月份推出,配备了一个拥有 4050 亿个参数的模型。Salvator 说,随着 LLM 越来越大,对实时推理的需求依然存在,它们将需要更多的计算和更低的延迟,这就需要一种平台方法。

他说:“与大多数其他 LLMS 一样,将由该模型提供支持的服务有望实时运行。要做到这一点,你需要多个 GPU。所面临的挑战是,如何在GPU的高性能、GPU的高利用率以及向使用这些人工智能驱动的服务的最终用户提供良好的用户体验之间取得巨大的平衡。”

速度的需要

通过 Blackwell,英伟达将每个交换机的带宽提高了一倍,从 900 GB/秒提高到 1.8 TB/秒。该公司的可扩展分层聚合和缩减协议(SHARP)技术 将更多的计算带入实际存在于交换机中的系统。它可以让我们从 GPU 上进行一些卸载,以帮助加速性能,还可以在 NVLink 结构上帮助平缓网络流量。这些都是我们在平台层面继续推动的创新。

多节点GB200 NVL72是一款液冷机箱,在机架规模的设计中连接了72个Blackwell GPU和36个Grace CPU,Nvidia称其作为单个GPU,可为GPT-MoE-1.8T等万亿参数LLM提供更高的推理性能。其性能是 HGX H100 系统的 30 倍,训练速度是 H100 的 4 倍。

英伟达还增加了对 FP4 的本机支持,使用该公司的 Quasar Quantization System,可以提供与 FP16 相同的精度,同时将带宽使用率降低 75%。Quasar Quantization System 是一款利用 Blackwell 的 Transformer Engine 来确保准确性的软件,Salvator 通过比较使用 FP4 和 FP16 创建的生成式人工智能图像来证明了这一点,这两种图像几乎没有任何明显的差异。

使用 FP4,模型可以使用更少的内存,性能甚至优于 Hopper GPU 中的 FP8。

液冷系统

在液体冷却方面,英伟达将介绍一种温水直接芯片到芯片的方法,这种方法可以将数据中心的用电量降低 28%。

Salvator说:“这种方法有趣的地方在于它的一些好处,其中包括提高冷却效率、降低运营成本、延长服务器寿命,以及将捕获的热量重新用于其他用途的可能性。它肯定有助于提高冷却效率。其中一个方法就是,顾名思义,这个系统实际上不使用制冷机。如果你想一想冰箱是如何工作的,就会发现它工作得很好。但是,它也需要电力。通过采用这种使用温水的解决方案,我们就不必使用制冷机,这就为我们节省了一些能源,降低了运营成本。”

另一个主题是Nvidia如何利用人工智能,利用 Verilog 设计其人工智能芯片,Verilog 是一种用代码描述电路的硬件描述语言,至今已使用了四十年。英伟达正在通过一个名为 VerilogCoder 的自主 Verilog 代理提供帮助。

他说:“我们的研究人员开发了一个大型语言模型,可用于加速创建描述我们系统的 Verilog 代码。我们将在未来几代产品中使用它来帮助建立这些代码。它可以做很多事情。它可以帮助加快设计和验证过程。它可以加快设计的手工操作,并从根本上实现许多任务的自动化。”

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

1 阅读:32

袁遗说科技

简介:感谢大家的关注