蚂蚁集团新AI模型:计算成本大降20%,1万亿Token训练只需508万元,无需高端GPU也能比肩巨头

电波灵 2025-03-27 13:22:29

在AI的赛道上,算力一直是绕不开的关键点。

长期以来,英伟达凭借其高端GPU,在AI模型训练领域占据着近乎垄断的地位。

这一格局正受到来自中国的挑战。

蚂蚁集团近日发布的百灵系列AI模型,以其低成本高效率的训练方式,引发了业界广泛关注,也让人们开始重新思考算力的未来。

蚂蚁集团的百灵模型究竟有何特别之处?

最引人注目的是其在成本控制上的突破。

无需依赖昂贵的高端GPU,百灵模型的训练成本显著降低了20%。

这意味着,训练1万亿Token的数据,只需花费508万元,这对于许多资源有限的研究机构和企业来说,无疑是一个巨大的利好。

更令人惊喜的是,即便不使用高端GPU,百灵模型的性能依然可以与使用英伟达H100、H800等高端芯片训练的模型相媲美,甚至在某些方面还有所超越。

那么,百灵模型是如何做到这一点的呢?

这主要归功于其独特的混合专家模型(MoE)架构,以及在异构计算单元和分布式集群间的切换技术框架。

此外,蚂蚁集团的工程师团队还对跨集群、跨设备的兼容性和可靠性进行了深入的性能优化,从而最大限度地提升了训练效率。

为了验证百灵模型的性能,蚂蚁集团的Ling团队进行了一系列严格的测试。

测试结果显示,无论是在英语理解、中文理解、数学和代码基准测试,还是在至关重要的工具使用方面,百灵模型都展现出强大的实力,与Qwen、Llama、Mistral等国际主流大模型相比毫不逊色。

尤其是在安全性方面,百灵模型在保证高效性的同时,也表现出更高的安全性,有效降低了错误拒绝率,实现了安全性和有用性的最佳平衡。

百灵模型的出现并非偶然。

在此之前,DeepSeek模型就以其远低于OpenAI和谷歌的训练成本引发了业界震动,甚至一度引发了资本市场的恐慌。

英伟达CEO黄仁勋虽然对DeepSeek表示赞赏,但也坚信更高效的模型最终会刺激计算需求的增长。

蚂蚁集团的百灵模型却另辟蹊径,探索在无高端GPU的情况下扩展模型训练能力,这无疑是对传统算力观念的挑战。

蚂蚁集团的这一突破性成果,也引发了国际社会的广泛关注。

HuggingFace工程师Tiezhen Wang甚至在社交媒体上公开质疑,这是否会成为做空英伟达的又一理由?

著名硬件媒体Tom's Hardware也评论称,蚂蚁集团的技术突破清晰地展现了中国在AI技术独立性方面的决心和实力。

彭博资深商业智能分析师罗伯特·李也指出,蚂蚁集团的研究成果显示出中国在AI创新领域的快速进步,以及本土企业在AI自给自足方面的努力。

蚂蚁集团表示,在模型训练过程中,他们既使用了国产芯片,也采用了英伟达芯片。

这一策略不仅有助于降低成本,也体现了其对技术多元化的重视。

据悉,蚂蚁集团计划将百灵模型开源,并应用于医疗、金融等行业领域,这将进一步推动AI技术的普惠化发展。

在AI技术飞速发展的今天,算力的重要性不言而喻。

高昂的算力成本也成为了制约AI技术发展的瓶颈。

蚂蚁集团的百灵模型,以其低成本、高效率的训练方式,为AI技术的未来发展提供了一种新的可能性。

这是否意味着,未来AI的竞争将不再是算力的堆砌,而是算法和技术的创新?

这是否预示着,AI技术将朝着更加普惠、更加可持续的方向发展?

0 阅读:1

电波灵

简介:电波灵