近日马斯克在X平台宣布,xAI打造的超级AI训练集群Colossus已经正式上线。据其透露,xAI花费122天搭建了Colossus,共计使用了10万张来自英伟达的H100,并且在未来几个月内还将再增加10万张GPU,其中一半是更先进的H200。
此前在今年7月马斯克就曾透露,xAI团队、X团队、英伟达及其他支持公司,已经开始在“孟菲斯超级集群(Memphis Supercluster)”、也就是Colossus上进行训练。
据悉,该集群使用的是单一RDMA(Remote Direct Memory Access,远程直接内存访问)网络互联架构(以下将简称为RDMA架构),相较于传统的TPC/IP通信模式,能够让计算机可以在节点间提供更高效、更低延迟的数据传输,并且不会对CPU造成影响,所节省的资源则可进行其它运算。
值得一提的是,该集群在GPU规模上已超过了最新的全球超级计算机Top 500榜单中的任何一台,例如Frontier(37888个AMD GPU)、Aurora(60000个Intel GPU),以及微软的Eagle(14400个NVIDIA H100 GPU)。
除了上线Colossus外,近年xAI还曾推出AI聊天机器人和多个AI大模型产品。此前在2023年,xAI就已推出旗下首款大模型、并将其用于AI聊天机器人Grok。据了解,Grok基于Grok-1打造,是xAI团队运用前沿技术开发的大语言模型。当时Grok-1在HumanEval代码生成任务上就取得了63.2%的准确率,在MMLU数据集测试中则获得了73%的准确率。
继今年3月xAI推出Grok-1.5大模型后,4月就发布了旗下首个多模态模型Grok-1.5 Vision,并邀请早期测试者和用户测试Grok-1.5 Vision,随后在8月正式推出Grok-2和Grok-2 mini的Beta版本。据xAI方面透露,Grok-2是其上一代大模型Grok-1.5的重大升级,在聊天、编码和推理方面具有更前沿的能力,而Grok-2 mini则被描述为“体型虽小、但功能强大的兄弟产品”,可在速度和回答质量之间取得平衡。