当大家谈论与大型人工智能服务的交互时,目前已经可以通过文本和语音提示来实现。展望未来,大家更希望以更人性化的方式——即数字人,来进行互动。英伟达在数字人技术领域已经取得了显著的进展,ACE(Avatar Cloud Engine)不仅能在云端高效运行,同时也兼容PC环境,这标志着人工智能GPU的时代已经到来。
英伟达将Tensor Core GPU集成到所有RTX系列中,构建了一个坚实的基础。全球已有1亿台GeForce RTX AI PC投入使用,预计将达到2亿台。这些设备都具备运行人工智能的能力,未来的笔记本电脑和PC将成为人工智能的载体。
数据中心与人工智能的演变英伟达数据中心的扩展,每次扩展都伴随着新的变革。当英伟达从DGX扩展到大型人工智能超级计算机时,实现了Transformer在巨大数据集上的高效训练。这标志着一个重大的转变:数据需要人类的监督,通过人类标记来训练人工智能。Transformer的发展使得无监督学习成为可能。
Transformer能够自行探索海量的数据、视频和图像,从中学习并发现隐藏的模式和关系。为了生成逼真的图像、视频、3D图形,以及模拟复杂的物理现象,人们急需开发基于物理的人工智能,这要求它能够理解并应用物理定律。
Blackwell:新时代的计算平台为满足人工智能发展的需求,英伟达推出了Blackwell GPU。这款GPU专为支持新一代人工智能设计,拥有几项关键技术,如世界上最先进的SerDes(高性能接口或连接技术)以及每秒10太字节的高速链接。Blackwell GPU的设计确保了计算效率和安全性。
Blackwell的推出标志着人工智能计算能力的显著提升。每当计算能力提高时,成本却在不断下降。例如,训练GPT-4模型(2万亿参数和8万亿Token)的能量下降了350倍。Blackwell使得生成每个Token只需消耗0.4焦耳的能量,这无疑是一个巨大的飞跃。
DGX系统与MGX系统英伟达的DGX系统和MGX系统均采用了Blackwell芯片。DGX系统采用空气冷却技术,内部配备了8个GPU。而MGX系统则采用液体冷却技术,确保高效稳定的运行。整个系统中,这样的节点共有九个,共计72个GPU,形成了一个庞大的计算集群。
NV链接交换机使得每个Blackwell芯片高效连接,形成了一个巨大的GPU集群。这个“超级GPU”拥有72个GPU的核心能力,性能提升了9倍,带宽增加了18倍,AI FLOPS(每秒浮点运算次数)提升了45倍,而功率仅增加了10倍。
以太网技术的突破为了满足大型人工智能工厂的需求,英伟达将InfiniBand的性能带到以太网架构中,采用了四种关键技术:RDMA(远程直接内存访问)、拥塞控制、自适应路由和噪声隔离。这些技术成功地为人工智能工厂提供了高性能、低延迟的网络解决方案。
带有Spectrum X的以太网技术大大提高了网络性能,使得网络成本几乎可以忽略不计。Spectrum X800设备以每秒51.2 TB的速度和256路径(radix)的支持能力,为成千上万的GPU提供了高效的网络连接。未来,X800 Ultra和X1600将进一步提升网络容量和性能。
生成式人工智能的未来随着技术的不断进步,数百万个GPU的数据中心时代已经指日可待。生成式人工智能将与人们一起工作、互动,生成视频、图像、文本甚至数字人。这些人工智能不仅具备强大的推理能力,还能对答案进行迭代优化,以提高答案的质量。
Blackwell作为NVIDIA平台的第一代产品,已经迎来了生成式人工智能的时代。全球范围内都意识到了人工智能工厂的重要性。英伟达的成功、广泛的采用以及行业对其的热情达到了前所未有的高度。
未来展望:Rubin平台英伟达将继续努力提升产品性能,降低培训和推理的成本,同时不断扩展人工智能的能力。明年,Blackwell Ultra将发布,接着是Rubin平台的推出。Rubin平台将以模块化的形式提供给全球客户,使其能够自由构建独特且富有创新性的配置。