AMD将推出120万GPU人工智能超级计算机与Nvidia竞争

省钱田田 2024-07-01 18:06:37

国际快递 · 清关 · 代拍

海外古董 · 艺术品 · 名画 · 名表

【FuninUSA.NET综合报道】数据中心对更多计算能力的需求正在以惊人的速度增长,AMD公司透露,该公司已经收到了关于构建单个人工智能集群的认真询问,该集群的GPU数量高达120万或更多。

AMD的这一表态来自The Next Platform与AMD数据中心解决方案集团执行副总裁兼总经理Forrest Norrod就AMD在数据中心的未来进行的一次长时间讨论。其中最令人大开眼界的回答是关于有人正在认真考虑的最大人工智能训练集群。

当被问及公司是否接到过关于120万GPU集群的咨询时,Forrest回答说,这个评估几乎是准确的。

摩根:有人认真考虑的最大人工智能训练集群是什么?有没有人找到你,说我需要120万GPU或其他什么MI500。

福雷斯特-诺罗德:在这个范围内?是的。

摩根:你不能只说“在这个范围内”。最大的实际数字是多少?

福雷斯特-诺罗德:我是认真的,就在这个范围内。

摩根:就一台机器而言。

是的,我说的是一台机器。

摩根:这让人有点摸不着头脑,你知道吗?

120万GPU是个荒唐的数字(匪夷所思,弗雷斯特后来在采访中打趣道)。人工智能训练集群通常由几千个GPU构建,通过高速互连连接到几个服务器机架或更少。相比之下,创建一个拥有120万个GPU的人工智能集群似乎几乎是不可能的。

我们只能想象,如果要构建一个拥有超过一百万个GPU的人工智能集群,需要克服哪些困难,但延迟、功耗和不可避免的硬件故障是我们能立即想到的几个因素。

人工智能工作负载对延迟极为敏感,尤其是尾部延迟和异常值,在这种情况下,某些数据传输比其他数据传输耗时更长,从而干扰了工作负载。此外,当今的超级计算机必须缓解 GPU 或其他硬件故障,而这些故障在其规模下每隔几个小时就会发生一次。当规模扩大到目前已知最大集群的30倍时,这些问题将变得更加突出。而这还没有涉及到实现这一大胆目标所需的核电站规模的电力输送。

即使是世界上最强大的超级计算机也无法扩展到数百万GPU。例如,目前运行速度最快的超级计算机“前沿”(Frontier)“只有”37888个GPU。

百万GPU集群的目标说明了2020年代人工智能竞赛的严重性。只要有可能,就会有人尝试去做,只要这意味着更强大的人工智能处理能力。Forest 并未透露是哪个组织在考虑构建如此规模的系统,但他确实提到,“非常清醒的人”正在考虑花费数百亿到数千亿美元在人工智能训练集群上(这也是为什么会考虑数百万GPU集群的原因)。

欢迎到FuninUSA.NET论坛讨论

0 阅读:2

省钱田田

简介:感谢大家的关注