本周,Allen人工智能研究所(Ai2)推出了Tülu3-405B,这是一个拥有4050亿参数的大型开源人工智能模型,声称其性能优于DeepSeek-V3,并在关键基准测试中与GPT-4o相匹配,特别是数学推理和安全性。

本次发布展示了Ai2的新颖训练方法,即具有可验证奖励的强化学习(RLVR)。Tülu3-405B基于Ai2的Tülu3训练方法,该方法于2024年11月首次推出。该模型使用精心策划的数据、监督微调、直接偏好优化(DPO)和RLVR的组合对Meta的Llama-405B进行微调。

RLVR尤其值得注意,因为它增强了存在可验证结果的技能,如数学问题解决和教学跟踪。根据Ai2的研究结果,与Tülu3-70B和Tülu3-8B等较小的模型相比,RLVR在405B参数下的扩展更有效。扩大规模大大提高了Tülu3-405B的数学技能,增加了这样一种观点的权重,即当输入专门的数据而不是一点点的所有数据时,更大的模型会做得更好,这是一个广泛的数据集。
Ai2的内部评估Tülu3-405B的表现一直优于DeepSeek-V3,特别是在安全基准和数学推理方面。该模型还与OpenAI的GPT-4o竞争。Tülu3-405B也超越了之前的开放式重训练后模型,包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。
训练一个4050亿参数的模型不是一项小任务。Tülu3-405B需要32个节点上的256个GPU,使用优化的推理引擎vLLM,具有16路张量并行性。根据一篇博客文章,Ai2的工程师面临着几个挑战,包括这些强烈的计算要求:“训练Tülu 3 405B需要32个节点(256个GPU)并行运行。为了进行推理,我们使用具有16路张量并行性的vLLM部署了模型,同时利用剩余的240个GPU进行训练。虽然我们的大多数代码库扩展良好,但我们偶尔会遇到NCCL超时和同步问题,需要细致的监控和干预。”
还有超参数调整的挑战:“考虑到计算成本,超参数调整是有限的。我们遵循了“较大模型的学习率较低”的原则,这与Llama模型的先前实践是一致的。”Ai2团队说。
借助Tülu3-405B,Ai2不仅仅是发布了另一个开源AI模型。这是关于模型训练的声明。通过扩大其RLVR方法,Ai2不仅建立了一个可以对抗GPT-4o和DeepSeek-V3等顶级人工智能的模型,而且还提出了一个重要的想法:当以正确的方式训练时,更大的模型可以变得更好。训练Tülu3-405B不仅在问题上投入了更多的数据,还使用了专业、高质量的数据和周到的训练技术来改进它。
但除了技术上的胜利,Tülu3-405B还强调了人工智能的一个更大转变:保持创新开放和可访问性的斗争。虽然最大的人工智能模型通常被锁定在企业付费墙后面,但Ai2押注于一个强大的人工智能仍然可供研究人员、开发人员和任何有足够好奇心进行实验的人使用的未来。

为此,Ai2已将Tülu3-405B免费提供给研究和实验,并将其托管在Google Cloud(不久后将推出Vertex)上,并通过Ai2 Playground提供演示。
自从deepsekk开源,大批的不知道哪里的大模型都性能暴涨,纷纷声称超越了deepseek。