蚂蚁集团新AI模型：计算成本大降20%，1万亿Token训练只需508万元，无需高端GPU也能比肩巨头

在AI的赛道上，算力一直是绕不开的关键点。

长期以来，英伟达凭借其高端GPU，在AI模型训练领域占据着近乎垄断的地位。

这一格局正受到来自中国的挑战。

蚂蚁集团近日发布的百灵系列AI模型，以其低成本高效率的训练方式，引发了业界广泛关注，也让人们开始重新思考算力的未来。

蚂蚁集团的百灵模型究竟有何特别之处？

最引人注目的是其在成本控制上的突破。

无需依赖昂贵的高端GPU，百灵模型的训练成本显著降低了20%。

这意味着，训练1万亿Token的数据，只需花费508万元，这对于许多资源有限的研究机构和企业来说，无疑是一个巨大的利好。

更令人惊喜的是，即便不使用高端GPU，百灵模型的性能依然可以与使用英伟达H100、H800等高端芯片训练的模型相媲美，甚至在某些方面还有所超越。

那么，百灵模型是如何做到这一点的呢？

这主要归功于其独特的混合专家模型（MoE）架构，以及在异构计算单元和分布式集群间的切换技术框架。

此外，蚂蚁集团的工程师团队还对跨集群、跨设备的兼容性和可靠性进行了深入的性能优化，从而最大限度地提升了训练效率。

为了验证百灵模型的性能，蚂蚁集团的Ling团队进行了一系列严格的测试。

测试结果显示，无论是在英语理解、中文理解、数学和代码基准测试，还是在至关重要的工具使用方面，百灵模型都展现出强大的实力，与Qwen、Llama、Mistral等国际主流大模型相比毫不逊色。

尤其是在安全性方面，百灵模型在保证高效性的同时，也表现出更高的安全性，有效降低了错误拒绝率，实现了安全性和有用性的最佳平衡。

百灵模型的出现并非偶然。

在此之前，DeepSeek模型就以其远低于OpenAI和谷歌的训练成本引发了业界震动，甚至一度引发了资本市场的恐慌。

英伟达CEO黄仁勋虽然对DeepSeek表示赞赏，但也坚信更高效的模型最终会刺激计算需求的增长。

蚂蚁集团的百灵模型却另辟蹊径，探索在无高端GPU的情况下扩展模型训练能力，这无疑是对传统算力观念的挑战。

蚂蚁集团的这一突破性成果，也引发了国际社会的广泛关注。

HuggingFace工程师Tiezhen Wang甚至在社交媒体上公开质疑，这是否会成为做空英伟达的又一理由？

著名硬件媒体Tom's Hardware也评论称，蚂蚁集团的技术突破清晰地展现了中国在AI技术独立性方面的决心和实力。

彭博资深商业智能分析师罗伯特·李也指出，蚂蚁集团的研究成果显示出中国在AI创新领域的快速进步，以及本土企业在AI自给自足方面的努力。

蚂蚁集团表示，在模型训练过程中，他们既使用了国产芯片，也采用了英伟达芯片。

这一策略不仅有助于降低成本，也体现了其对技术多元化的重视。

据悉，蚂蚁集团计划将百灵模型开源，并应用于医疗、金融等行业领域，这将进一步推动AI技术的普惠化发展。

在AI技术飞速发展的今天，算力的重要性不言而喻。

高昂的算力成本也成为了制约AI技术发展的瓶颈。

蚂蚁集团的百灵模型，以其低成本、高效率的训练方式，为AI技术的未来发展提供了一种新的可能性。

这是否意味着，未来AI的竞争将不再是算力的堆砌，而是算法和技术的创新？

这是否预示着，AI技术将朝着更加普惠、更加可持续的方向发展？

玩酷网