初见基于Trainium2的UltraServer，原来是这样的性能怪兽

第一次去现场参加re:Invent大会，第一次在亚马逊云科技re:Invente展区看风景，一口气看到了很多有意思的东西。根据目前掌握的资料和信息，记录下目前对于UltraServer的认识。

现场看到了AMD的MI300，英伟达GB200，还有亚马逊云科技的Trainium2，以及基于Trainium2的超级服务器UltraServer。

而这，就是英伟达的超级芯片GB200，一块Grace CPU还有两块Blakwell200芯片，三者之间用NVLink两两互联，外部用NVLink交换机继续连接，扩展到有72块B200显卡，内存可共享的大集群。

这是GB200装入服务器之后的样子，可以看到，它已经采用了冷板式水冷方案。没办法，它的功耗太大了。

值得注意的是，这张截图左边绿色框全部都是英伟达做的，亚马逊云科技做这台服务器时，不需要对这部分做太多修改，也没办法做太多修改。

而右面部分是亚马逊云科技利用Amazon Nitro系列的东西打造的，提供网络、安全、还有SSD存储等方面的能力，Nitro是亚马逊百试不爽的数据中心神器，被誉为服务器里的服务器。

这应该就是最新发布的P6实例背后的服务器，最大的问题是它不够灵活。为了解决这个问题，亚马逊云科技拿出了UltraServer服务器。

这就是此前发布的Trainium2芯片，有两个大的计算Die，两边都有HBM。

有意思的是，这一代还把电压调节器直接嵌入芯片封装的外围，这种设计减少了电力传输路径的长度，从而减少了高负载时，因为电压下降而导致性能下降的问题。（这一功能叫Backside Power Delivery）

这是我在现场看到的UltraServer服务器，没错，两个机架现在都能叫一台服务器了，这台服务器非常的不简单，不寻常。

这样一台UltraServer服务器其实可以分成四个部分，为了方便了解，现在只看它的四分之一。

这四分之一应该就是一台Trainium2服务器，它能构成普通的Trn2实例。

接下来介绍一下内部构造：

首先看到，最上面有一堆褐色的连接线，这就是PCIe连接线。

连接线的一头插在了CPU的盒子，连接线的另外一端连接8个放着Trainium2芯片的盒子，每个盒子里有两个Trainium2芯片。

请注意，这里完成了CPU跟Trainium2加速器的解耦。也请回忆一下跟GB200超级芯片的区别。

介绍完了CPU跟显卡的连接，再来看紫色的线，它负责连接800G的交换机。

上图就是800G的网络交换机，其定位有点类似英伟达的Spectrum SN5600以太网交换机，两者都有64个端口。另外，淡黄色的线是IO的连接器，是负责连接存储用的，负责存储的解耦。

缩小一下图片来看，这里会注意到蓝色的很粗的线，这就是最新介绍的NeronLink，名字跟英伟达的NVLink很像，功能也有点像，都是chip-chip的连接线。

不过，它只是连接另外一个放置Trainium2盒子的线，每个盒子伸出来两根蓝色的线。不难脑补出这个图谱，是一个两两互联的方块，但没有对角线的直接互联。

这就是UltraServer的大致情况，四个计算盒子加上32个Trainium盒子，就组成UltraServer。

另外，UltraServer之间会用10P10U的网络进行互联，所谓10P10U指的是，10Pb/s的传输带宽，以及10微秒的网络延迟，连起来之后，就组成了可用于训练的超级集群。（注：10P10U也被称作是UltraCluster 2.0）

有朋友注意到，亚马逊云科技还提到了SIDR，它提供了一种高效的方式来快速检测和响应网络故障，能在很短的时间重新规划网络路径，为大规模集群提供了超高的网络可靠性和故障恢复能力，也是 10P10U 网络的重要支撑技术。

最后提一下，亚马逊云科技高级副总裁Peter DeSantis在演讲中特别提到了Tranium2支持的 Systolic Arrays （芯片脉动阵列）架构。

它跟CPU还有GPU需要反复读取内存传递数据的做法不同，它在拿到数据之后，能够在Tranium2之间直接传递计算结果，最大程度减少内存带宽压力，能更高效地处理矩阵乘法和稀疏张量等深度学习工作负载。

UltraServer这种解耦的设计与英伟达GB200的方案相比，有很多好处，第一个就是，因为它完成了CPU跟Trainium2这种ASIC加速器的解耦，单个加速器出问题之后，不会影响整台服务器工作。

而UltraServer在单个Trainium2出问题之后，只需要把它所在的Trainium盒子拿出来替换掉就行了，增加了灵活性和可维护性。

另外一个优势在于，它采用的是风冷的方案，刚才也看到了，GB200服务器方案是液冷的，维护起来会比较麻烦。

我注意到，UltraServer本身并不是要去直接取代英伟达的GB200。UltraServer强调的算力是FP8的，FP8 正在迅速发展，并逐渐被引入训练环节，特别是在优化计算性能和内存利用率方面。

而在目前，FP16 是训练环节的主要选择，因为它成熟稳定，能满足模型精度需求，并显著提高性能，这目前仍是英伟达的显卡更有优势的领域。亚马逊云科技也强调，自己是最适合GPU的云。

以上就是目前我知道的，关于Trainium2的UltraServer服务器的主要内容。如果您知道更多细节，或者我有理解不对的地方，欢迎评论区互动讨论。

附上一张亚马逊云科技做的图，一起学习一下Peter Desantis奉上的科普大戏：

玩酷网