在人工智能领域的激烈竞争中,NVIDIA的“Blackwell” 系列芯片中的 B100、B200 和 GB200 已推出,并开始向各大原始设备制造商及超大规模厂商交付。这一系列芯片的推出,无疑为 NVIDIA 在 AI 芯片市场奠定了更为坚实的基础。而NVIDIA目前正紧锣密鼓地筹备 “Blackwell Ultra” 升级计划。
在内存配置方面,GB300 实现了重大突破。它搭载了 288GB 的 HBM3E 显存,相较于前代 GB200 的 192GB,提升幅度近 50%。在 AI 计算中,显存的大小对处理大规模数据集、深度学习模型的训练和推理过程至关重要。足够的显存容量能够确保显卡在执行 AI 任务时能够同时存储和操作所需的数据,避免因为显存不足而导致的性能瓶颈。GB300 的大显存能够支持更大规模的模型,从而提高模型的复杂度和性能,让其在处理复杂 AI 任务时更加得心应手。
与前一代 B200 芯片相比,B300 在 FP4 性能方面显著提升了 1.5 倍。这一性能飞跃主要得益于大幅增强的内存配置以及架构的优化。更高的 FP4 性能意味着 B300 在处理诸如深度学习推理等任务时能够更加高效,大大缩短了计算时间,提高了整体工作效率。无论是大规模数据的分析处理,还是复杂模型的运算,B300 都能展现出卓越的性能优势。
B300 采用了更为先进的 12 层堆栈架构,相比 GB200 的 8 层配置有了明显进步。这种架构的优化使得数据传输更加高效,能够进一步提升 GPU 的整体性能。多出来的层数增加了数据的存储空间和传输通道,减少了数据传输的延迟,从而提高了芯片在处理多任务和高负载情况下的稳定性和响应速度,让 B300 在面对复杂计算任务时能够更加从容地应对。
随着 GB300 性能的大幅提升,其功耗也相应增加,达到了 1400W,这对散热系统提出了极高的要求。为此,GB300 采用了全水冷设计,通过先进的水冷板和增强型 UQD(快换接头)来确保系统的稳定运行。水冷系统能够更有效地带走 GPU 和其他组件在运行过程中产生的热量,相比传统的风冷散热方式,具有更高的散热效率。增强型 UQD 则在液体冷却系统中扮演着重要角色,它能够实现冷却液的快速连接和更换,确保冷却液在系统中的高效循环,为高负荷运行的服务器提供可靠的散热保障。在数据中心等大规模应用场景中,稳定的散热系统对于保证服务器的持续运行至关重要,GB300 的全水冷设计与增强型 UQD 的结合,有效解决了散热难题,为其强大性能的稳定发挥奠定了基础。
它配备了 ConnectX 8 网卡,取代了之前的 ConnectX 7 代网卡,同时光模块从 800G 升级到了 1.6T。这种升级极大地提高了数据传输速度,满足了日益增长的大数据和 AI 应用对高速网络的需求。在分布式计算、大规模数据传输以及多节点协同工作等场景中,更快的网络速度意味着更短的等待时间和更高的工作效率。在深度学习模型的训练过程中,需要在多个节点之间快速传输大量的训练数据,ConnectX 8 网卡与 1.6T 光模块的组合能够显著缩短数据传输时间,加速模型训练过程,从而更快地得到更准确的模型结果。
为了保障系统的稳定性和可靠性,GB300 NVL72 机柜采用了标准化的电容托盘,并可选配电池备份单元(BBU)系统。标准化电容托盘有助于稳定电源供应,减少电压波动对系统的影响。而 BBU 系统则在突发断电等情况下发挥关键作用,它能够为系统提供短暂的电力支持,确保数据的安全保存和系统的有序关机,避免因突然断电导致的数据丢失或硬件损坏。每个 BBU 模块的制造成本约为 300 美元,整个 GB300 系统的 BBU 配置总价约为 1500 美元。此外,该系统对超级电容器的需求同样巨大,每个 NVL72 机架需要超过 300 个超级电容器,由于其高功率特性,生产过程中的单价在 20 - 25 美元之间。这些配置虽然增加了成本,但却为系统的稳定性和可靠性提供了坚实的保障,对于那些对数据安全和系统稳定性要求极高的应用场景,如金融交易处理、科学研究中的关键数据计算等,具有非常重要的意义。