带你直击100000GPU的服务器机房核心——马斯克xAI超级AI集群!

东沛评科技 2024-10-29 19:26:45

拥有10万个图形处理器(GPU),由埃隆·马斯克(Elon Musk)斥巨资打造的新项目——xAI Colossus人工智能(AI)超级计算机,首次披露了详细情况。

YouTuber ServeTheHome获准访问这台拥有10万个图形处理器(GPU)的超级计算机内部的Supermicro服务器,展示了超级计算机的多个方面。马斯克的xAI Colossus超级计算机集群在历经122天的组装后,已上线运行近两个月。

拥有10万个图形处理器(GPU),由埃隆·马斯克(Elon Musk)斥巨资打造的——xAI Colossus Supermicro GPU超级服务器首次曝光。

xAI Colossus超级计算集群上线已有近两个月时间,此前历经122天组装完毕。

这些GPU服务器采用的是Nvidia HGX H100平台,每台服务器包含八个H100 GPU。HGX H100平台装在Supermicro的4U通用液冷GPU系统内,为每个GPU提供便捷的热插拔液冷功能。这些服务器被装载在机架上,每个机架可容纳八个服务器,即每个机架64个GPU。1U冷却总管夹在每个HGX H100之间,为服务器提供必要的液冷。每个机架底部另设有Supermicro 4U单元,配备冗余泵系统和机架监控系统。

这些机架成组排列,每组八个,总计512个GPU。每个服务器配有四个冗余电源,机架后部展示了三相电源、以太网交换机及机架级总管,为所有液冷设备供电。Colossus集群中有超过1,500个GPU机架,约200组。根据Nvidia首席执行官黄仁勋的说法,安装这些200组GPU仅用了三周时间。

由于AI超级计算机集群在持续训练模型时对带宽要求极高,xAI在网络互联方面不惜重金投入。每块显卡都配备了一个400GbE的专用网络接口控制器(NIC),每个服务器还额外配备一个400Gb的NIC。这意味着每个HGX H100服务器的以太网速度可达3.6Tbps。是的,整个集群都运行在以太网上,而非超级计算领域常用的InfiniBand或其他异构连接。

当然,像 Grok 3 聊天机器人这样基于训练 AI 模型的超级计算机需要的不仅仅是 GPU ,还需要大量的CPU才能运行。因此,Colossus还配置了CPU计算服务器,其外观与Supermicro存储服务器极为相似。视频显示,这些服务器多为NVMe直通的1U服务器,采用某种x86平台CPU,配备后置液冷系统,用于存储和CPU计算。

在机房外,还看到了一些特斯拉Megapack电池组。由于集群的启停特性以及运作过程中产生的毫秒级延迟超出了电网或马斯克的柴油发电机的负荷能力,部分特斯拉Megapacks(每个储存可达3.9 MWh)用作电网和超级计算机之间的能量缓冲。

根据Nvidia的说法,xAI Colossus超级计算机目前是全球最大的AI超级计算机。与其他超级计算机主要供承包商或学术机构研究气象、疾病等复杂计算任务不同,Colossus仅用于训练X(前身为Twitter)的各类AI模型,尤其是马斯克的“反觉醒”聊天机器人Grok 3,仅面向X Premium订阅者开放。ServeTheHome透露,Colossus还在训练“未来的AI模型”,这些模型的用途和能力超出当今主流AI。

Colossus的第一阶段建设已完成,集群已全面上线,但尚未完全竣工。增加5万张H100 GPU和5万张下一代H200 GPU,GPU总数将翻倍,升级后电力需求将超出马斯克7月新增的14台柴油发电机的供电能力。这也低于马斯克承诺的Colossus内部安装30万个H200 GPU的目标,这可能是未来的第三阶段升级。

位于德州“特斯拉超级工厂”的5万GPU Cortex超级计算机也归属马斯克公司,专注于训练特斯拉的自动驾驶AI技术,主要用于处理摄像头画面和图像识别。此外,特斯拉在纽约州布法罗即将开始建设耗资5亿美元的Dojo超级计算机项目。最近百度首席执行官李彦宏等行业人士预计,AI泡沫破裂后,99%的AI公司将倒闭。马斯克的创纪录AI投资是会适得其反,还是带来回报,尚待观察。

0 阅读:0

东沛评科技

简介:感谢大家的关注