世界最强AI训练集群上线

文丨俊俊

特斯拉首席执行官埃隆·马斯克（Elon Musk）接对当前人工智能领域普遍缺失的“亲人类”原则表达了深切忧虑，所以从OpenAI撤资，创立xAI。

近日，马斯克雄心勃勃地设定目标，期望自家的人工智能模型能在年内成为“世界上最强大的人工智能模型。”

之所以这么期望，源于马斯克旗下人工智能初创公司xAI聊天机器人的最新研发进展：

xAI公司在短短19天内，于美国田纳西州孟菲斯市搭建完成了一个堪称世界最强的AI训练集群——孟菲斯超级集群（Memphis Supercluster）。

超强算力训练集群

为什么敢说是全世界最强大的 AI 训练集群？

据马斯克描述，孟菲斯超级集群配备了令人咋舌的 10万个英伟达 H100 GPU，一举刷新业界纪录，成为全球瞩目的焦点。

其采用液冷散热，并使用单一的RDMA （远程直接数据存取）网络互连架构，是目前全世界最强大的 AI训练集群。

10万块H100的算力如何？

OpenAI训练GPT-4用了2.5万块A100 GPU，10万块H100的算力大约是OpenAl的20倍左右。仅仅是让这个超级计算中心维持运转，所需要的电力总功率就达到70MW，这是一座普通电厂的发电总功率，足以为20万人口的城市供电。

据估计，H100每块成本在3-4万美元之间，孟菲斯超级集群在价格上达到惊人的40亿美元，豪横如此，彰显出马斯克对尖端科技的无限追求与巨大投入。

日前，xAI公司的孟菲斯超级计算机集群已经开始启用，xAI团队、X团队、英伟达以及其他一些支持公司已经于当地时间凌晨4点20分开始在该集群上进行训练。

xAI已拥有世界领先的AI训练集群，10万块H100“液冷怪兽”即将觉醒，xAI将利用这一集群在今年12月之前“从各个方面训练世界上最强大的人工智能”，创建一个“世界上最强大的人工智能”。

计划8月份发布Grok 2，12月份发布Grok 3

更引人瞩目的是，孟菲斯超级集群将用于训练xAI的下一代AI模型Grok-3，Grok-3预计于今年12月震撼问世发布。

xAI在强化Grok方面取得了显著突破。早在5月份便有消息传出，该公司正筹备将多模态输入功能融入Grok，旨在让用户能够上传图像并即时获得精准的文本回应。

当被要求将Grok与ChatGPT进行对比时，马斯克坦言：“目前发布的Grok版本仍基于Grok 1的训练成果，我们虽进行了优化升级，称其为Grok 1.5，但其基础模型在性能上仍落后于ChatGPT一个数量级。”

马斯克直接透露，Grok2上个月完成了训练，大约用了1.5万块 H100，目前工程师们正致力于“查漏补缺”，预计下个月将正式发布，“Grok 2的性能将与ChatGPT的最新模型相媲美，两者极为接近。”

而基于10万块H100 GPU的Grok-3，或全球最强大的人工智能模型，“它有望成为世界上最顶尖的人工智能模型。”

马斯克的这一系列动作，无疑是在全球AI军备竞赛中投下一颗重磅炸弹，加速了xAI在全球AI领域的崛起，同时也向竞争对手发出强烈信号——在AI的赛道上，速度与创新是制胜关键。

马斯克为什么要建立超算？

马斯克旗下的xAI带着Grok，正与谷歌的Gemini 、OpenAI的ChatGPT等产品展开激烈竞争。

源于对AI不可控的担忧，马斯克与阿尔特曼以公益和开源为初心发起了“推动人工智能技术的发展，造福全人类”的OpenAI，但由于人才争夺的利益冲突，特斯拉发展瓶颈和股价风险等原因，马斯克辞别OpenAI。

后面OpenAI成立盈利实体与微软合作而大放异彩的传奇故事大家已经耳熟能详。ChatGPT的爆火和闭源令马斯克非常愤怒，“OpenAI 打着开源的旗号创立，本来是一家非营利公司，目的是成为对抗谷歌的力量，但如今这家公司变成了闭源，不仅攫取大量利润，而且由微软控制”。xAI的成立很明显就是对OpenAI的一种抗衡。

此外，马斯克对人工智能安全性的忧虑日益加剧，也激发他自主研发Grok的决心。

马斯克常常指出ChatGPT与谷歌Gemini等竞品中存在的左倾倾向，他誓言自己坚定地站在人类这一边，而非机器，将坚决抵制并反击这类人工智能工具中的左翼言论倾向。“忽视人类的利益，简直是匪夷所思。若人类不愿携手合作，那么谁还会呢？这已是底线。我们亟需新的人工智能公司来与谷歌等巨头分庭抗礼。”

对于xAI的未来，马斯克不仅满怀信心，还设定了更积极的时间表。“相较于那些已经存在了5年、10年或20年的老牌企业，我们还有很多事情要做。我们虽起步较晚，但正以惊人的速度迎头赶上。xAI的发展速度比其他任何公司都快。”随着Grok-3的即将发布，全球科技界正屏息以待，期待着这一全新AI巨擘的诞生，或将重塑全球AI格局，开启智能新时代。

按计算资源的规模计算，新的xAI孟菲斯超级集群在GPU算力方面很容易超过目前市面上的最强大的超级计算机，如Frontier（37,888个AMD GPU），Aurora（60,000个英特尔GPU）和Microsoft Eagle（14,400个英伟达H100 GPU）。

不过也一定会有后来者。比如，Meta在今年1月透露，公司计划到今年年底采购35万块英伟达H100 GPU，将其人工智能基础设施的算力扩展到60万块H100的水平。

玩酷网

趣唠科技不打烊