xAI旗下AI训练集群上线，由10万张H100组成

近日马斯克在X平台宣布，xAI打造的超级AI训练集群Colossus已经正式上线。据其透露，xAI花费122天搭建了Colossus，共计使用了10万张来自英伟达的H100，并且在未来几个月内还将再增加10万张GPU，其中一半是更先进的H200。

此前在今年7月马斯克就曾透露，xAI团队、X团队、英伟达及其他支持公司，已经开始在“孟菲斯超级集群（Memphis Supercluster）”、也就是Colossus上进行训练。

据悉，该集群使用的是单一RDMA（Remote Direct Memory Access，远程直接内存访问）网络互联架构（以下将简称为RDMA架构），相较于传统的TPC/IP通信模式，能够让计算机可以在节点间提供更高效、更低延迟的数据传输，并且不会对CPU造成影响，所节省的资源则可进行其它运算。

值得一提的是，该集群在GPU规模上已超过了最新的全球超级计算机Top 500榜单中的任何一台，例如Frontier（37888个AMD GPU）、Aurora（60000个Intel GPU），以及微软的Eagle（14400个NVIDIA H100 GPU）。

除了上线Colossus外，近年xAI还曾推出AI聊天机器人和多个AI大模型产品。此前在2023年，xAI就已推出旗下首款大模型、并将其用于AI聊天机器人Grok。据了解，Grok基于Grok-1打造，是xAI团队运用前沿技术开发的大语言模型。当时Grok-1在HumanEval代码生成任务上就取得了63.2%的准确率，在MMLU数据集测试中则获得了73%的准确率。

继今年3月xAI推出Grok-1.5大模型后，4月就发布了旗下首个多模态模型Grok-1.5 Vision，并邀请早期测试者和用户测试Grok-1.5 Vision，随后在8月正式推出Grok-2和Grok-2 mini的Beta版本。据xAI方面透露，Grok-2是其上一代大模型Grok-1.5的重大升级，在聊天、编码和推理方面具有更前沿的能力，而Grok-2 mini则被描述为“体型虽小、但功能强大的兄弟产品”，可在速度和回答质量之间取得平衡。

玩酷网

xAI旗下AI训练集群上线，由10万张H100组成

聊点科技行叭