伊利诺伊大学厄巴纳-香槟分校的美国国家超级计算应用中心(NCSA)刚刚推出了备受期待的DeltaAI系统。

DeltaAI是一种先进的人工智能计算和数据资源,将成为NCSA Delta的配套系统,Delta是一台基于HPE Cray的338节点超级计算机,安装于2021年。新的DeltaAI由美国国家科学基金会(NSF)资助,获得了近3000万美元,全国各地的研究人员将通过NSF ACCESS计划和国家人工智能研究资源(NAIRR)试点使用该系统。
该系统将通过使用先进的人工智能硬件,包括英伟达H100 Hopper GPU和GH200 Grace Hopper超级芯片,加速复杂的人工智能、机器学习和运行数兆字节数据的HPC应用程序。
媒体在亚特兰大SC24采访了NCSA主任Bill Gropp,了解上周五全面投入使用的新DeltaAI系统的内幕。
从Delta到DeltaAI:满足日益增长的GPU需求
Gropp说,在构思和部署最初的Delta系统时,DeltaAI受到了NCSA对GPU需求不断增长的启发。“Delta这个名字来自这样一个事实,即我们看到了计算架构的这些进步,特别是在GPU和其他接口方面。一些社区已经采用了这些,但不是所有社区,我们真的觉得这是人们应该采取的一个重要方向。”。
“所以,我们向美国国家科学基金会提出了Delta并获得了资助,基本上囊括几乎所有的GPU资源。我们曾预计它将是建模模拟的混合体,如分子动力学、流体流动和人工智能。但随着我们部署了Delta,人工智能刚刚起步,需求越来越多。”
Gropp说,最初的Delta系统配备了Nvidia A100 GPU和更适量的GPU内存,在当时是最先进的,但在大型语言模型和其他形式的生成式人工智能(GenAI)出现和普及之后,游戏规则发生了变化。

他说:“我们研究了人们的需求,意识到人工智能研究对GPU资源的需求巨大,这些更大的模型将需要更多的GPU内存。”。
扩展GPU功率以揭开人工智能的神秘面纱
NCSA的原始Delta系统成为新DeltaAI的配套系统。
新的DeltaAI系统将提供大约两倍于原始Delta的性能,为需要高数值精度的任务(如流体动力学或气候建模)提供petaflops的双精度(FP64)性能,以及惊人的633 Petaflop的半精度(FP16)性能,针对机器学习和AI工作负载进行了优化。
这种非凡的计算能力由320个NVIDIA Grace Hopper GPU驱动,每个GPU配备96GB内存,因此每个节点总共有384GB的GPU内存。这些节点还由高达1TB/秒带宽的14PB存储支持,并与高度可扩展的结构互连。
Gropp表示,NSF对Delta和DeltaAI的补充资助将使他们能够部署每个节点具有超过1TB GPU内存的额外节点,这将支持AI研究,特别是专门用于理解LLM训练和推理的研究。Gropp希望DeltaAI研究潜力的这一方面将为可解释AI带来福音,因为这些巨大的内存资源使研究人员能够处理更大的模型,同时处理更多的数据,并对AI系统的机制进行更深入的探索。

Gropp解释说:“我们在可解释的人工智能、值得信赖的人工智能以及理解推理是如何工作的方面做了大量的研究。”他强调了推动这项工作的关键问题:“为什么模型是这样工作的?你如何提高它们的质量和可靠性?”
了解人工智能模型如何得出具体结论对于识别偏见以确保公平性和提高准确性至关重要,尤其是在医疗保健和金融等高风险应用中。可解释的人工智能是对“黑匣子”人工智能系统和模型的回应,这些系统和模型不容易理解或访问,并且在如何处理输入以生成输出方面往往缺乏透明度。
Gropp说,随着人工智能采用的加速,对可解释性和准确性的需求也在同时增长,这引发了诸如“如何减少这些模型中本质上的插值误差,以便人们可以依赖他们从中得到的东西?”之类的问题。“看到这一需求是我们提出这一建议的原因。我认为这就是NSF资助它的原因,也是我们如此兴奋的原因。”
让人工智能和高性能计算民主化
DeltaAI将通过NSF ACCESS计划和国家人工智能研究资源(NAIRR)试点计划向全美国研究人员提供。这种广泛的可访问性旨在促进协作,并扩展DeltaAI先进计算能力的范围。
Gropp说:“我们真的很期待看到越来越多的用户利用我们最先进的GPU,以及利用我们可以提供的支持,以及与其他团体合作和共享我们资源的能力。”
Gropp表示,新系统将在推进人工智能和更传统的计算科学方面发挥双重作用。虽然DeltaAI的节点针对AI特定的工作负载和工具进行了优化,但HPC用户同样可以访问它们,因为该系统的设计使其成为一个多功能平台,既服务于AI研究,也服务于传统的HPC应用程序。
HPC工作负载,如分子动力学、流体力学和结构力学,将从该系统的先进架构中受益匪浅,特别是其多GPU节点和统一内存。这些功能通过提供巨大的带宽来提高计算密集型任务的性能,从而解决了HPC中的常见挑战,如内存带宽限制。

平衡人工智能炒作与实际科学进步
DeltaAI与原始Delta系统集成在同一网络和共享文件系统上,代表了一种前瞻性的基础设施设计方法。这种相互连接的设置不仅最大限度地提高了资源效率,还为未来的可扩展性奠定了基础。
Gropp表示,在未来一两年内增加新系统的计划已经到位,这反映了向持续升级模式的转变,而不是等待当前硬件过时。虽然这种方法可能会在管理更加异构的系统方面带来挑战,但保持在创新前沿的好处远远大于复杂性。
这种创新的基础设施设计方法确保了传统计算工作负载得到维护,并与人工智能的进步无缝集成,在可能导致人工智能疲劳的现代计算环境中营造了一个平衡和多功能的研究环境。
Gropp指出:“围绕人工智能的炒作可能会让人筋疲力尽。”“我们确实必须小心,因为人工智能可以做的事情有巨大的价值。但有很多事情是它做不到的,我认为它永远无法做到,至少用我们现有的技术是这样。”
DeltaAI体现了NCSA致力于推进科学理解的前沿以及人工智能和高性能计算技术的实际应用。湍流建模等科学应用正受益于HPC和AI的结合。
Gropp说:“我认为这是一个令人兴奋的例子,说明了我们真正想做的事情。我们不仅想理解它并满足我们对它的好奇心,而且我们希望能够利用这些知识来改善人类的生活。”