AMD今天宣布,其El Capitan超级计算机以1.742 EFLOPS(ExaFLOPS的缩写,表示每秒能执行10的18次方次浮点运算)的性能在半年度的Top500榜单上登顶,成为已知的全球最快的超级计算机。不过中国拥有的几台EFLOPS级的超级计算机因保密原因,没有提交给Top500榜单。
El Capitan首次出现在榜单上就占据了首位,超过了之前同样由AMD驱动的1.3 EFLOPS的Frontier。由Intel驱动的Aurora系统在榜单上跌至第三位,且没有提交新的基准测试结果,这意味着部分运行的系统在多个方面仍在经历故障问题。
El Capitan拥有11,136个节点,装有44,544个AMD的MI300A APU,5.4PB的主内存,以及一个异常高效的Rabbit近节点存储子系统。El Capitan在基准测试中实现了每秒1.742千万亿次(EFLOPS)的性能,这比榜单上第二的系统快45%。
美国国家核安全管理局(NNSA)将使用该系统,通过模拟爆炸来消除地下核试验的需要,并模拟核武库的老化效应、安全性和可靠性;还将用于开发两种新的洲际弹道导弹(ICBM)设计;将用于高性能计算(HPC)和人工智能(AI)工作负载,或两者的结合。
以下是Top500榜单上前三名超级计算机的简要信息:
El Capitan的理论峰值(Rpeak)为2.746 EFLOPS,但这个数字是在所有系统组件以峰值速度运行且具有完美的线性性能扩展的情况下计算的,这在现实世界中是不可行的。其Rmax,即在高性能Linpack(HPL)基准测试中的实际性能测量,达到了1.742 EFLOPS。随着系统进一步调整,Rmax在未来可能会增加,该机构表示在El Capitan被转移到分类网络之前,将再进行一次全面的HPL基准测试。
还需要注意的是,HPL中的超级计算机系统性能是以全双精度FP64来测量的。相比之下,以AI为中心的超级计算机是以更小的数据类型来测量的,这使得EFLOPS的AI性能评级更高,但这些并不直接与Top500榜单上的列表相比较。
El Capitan在满负荷时消耗超过35兆瓦的电力,并提供58.89 Gigaflops/瓦特的性能,位列Green500最高效超级计算机榜单的第18位。
El Capitan总共拥有11,039,616个计算核心(CPU+GPU),分布在44,544个AMD MI300A处理器上。这些APU将CPU和GPU核心集成到同一个物理封装中。每个MI300A芯片有13个芯片块,其中许多是3D堆叠的,以创建一个带有24个Zen 4 CPU核心、一个CDNA 3图形引擎和八堆HBM3内存总计128GB的单一芯片封装。
总的来说,MI300A芯片拥有1460亿个晶体管,使其成为AMD投入生产的最大的芯片。9个计算芯片,包括5nm CPU和GPU,被3D堆叠在4个6nm基础芯片之上,这些基础芯片是活跃的中介层,负责处理内存和I/O流量等功能。你可以在这里看到El Capitan拓扑的深入分析。该架构采用缓存一致性内存以减少CPU和GPU之间的数据移动,这通常比计算本身消耗更多的电力,从而降低延迟并提高性能和能效。它还大大简化了旧代码的移植和新代码的创建。
HPE构建的El Capitan系统采用了其Shasta架构,包括高密度水冷EX4000机柜和EX225a加速器刀片,通过Slingshot-11网络互联连接。这个平台为美国能源部的其他两台EFLOPS级超级计算机提供动力,包括之前世界上最快的超级计算机Frontier,以及Intel驱动的Aurora。
Top500榜单上第二快的超级计算机Frontier也是由AMD驱动的,其在榜单上也有了新的基准测试结果,基准测试为1.353 EFLOPS,比之前的1.194有所增加。Rpeak也从1.714 EFLOPS增加到2.055 EFLOPS。
美国能源部没有提交Intel的Aurora的新基准测试,6个月前,Aurora的提交使其来到Top500的第二位,但系统并未完全运行,基准测试只包括了87%的系统活跃。当时,Intel表示Aurora遭受了许多硬件问题,包括硬件和冷却系统故障、操作错误和网络不稳定。缺乏新的提交意味着这些错误尚未完全解决。Aurora仍然在以AI为中心的HPL-MxP混合精度基准测试中领先,使其成为世界上已知最快的AI超级计算机,拥有10.6 EFLOPS的性能。
据悉,Top500前十名最快超级计算机中,AMD驱动的有5台,Intel有3台,Nvidia有1台,还有1台是日本定制的Arm Fugaku。