【科技前沿】Light-R1-32B开源数学模型仅千元训练成本

熟知外星君 2025-03-10 16:02:37

研究人员推出了名为Light-R1-32B的新型开源AI模型,该模型专为解决高等数学问题优化,现已在Hugging Face平台以宽松的Apache 2.0许可证开源。企业及研究机构可免费使用、部署、微调或修改该模型(包括商业用途)。

这款包含320亿参数的模型,在第三方美国数学邀请赛(AIME)基准测试中表现超越同规模(甚至更大)的开源模型——包括DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B。AIME包含15道面向极高水平学生的数学题,测试时长为3小时。

由梁文、小崔、何心、蔡云科、安琦、段镇宇、杜一民、刘俊辰、汤立夫、吕晓伟、邹皓生、邓永超、贾守胜和张祥正共同开发,该模型在数学竞赛基准测试中超越了此前开源替代方案。

令人惊叹的是,研究团队仅用12块Nvidia H800显卡在不到6小时内完成模型训练,预估总成本为1000美元。这使得Light-R1-32B成为开发高性能数学专用AI模型中最易获取且实用的方法之一。但需注意,该模型是基于阿里巴巴开源模型Qwen 2.5-32B-Instruct的一个变体进行训练的,而后者本身被认为具有更高的前期训练成本。

团队同步公开了训练数据集、脚本及评估工具,为构建数学类AI模型提供了透明且易于获取的框架。

Light-R1-32B的发布紧随微软Orca-Math等同类竞品之后。

数学领域新王者诞生

为提升Light-R1-32B解决复杂数学问题的能力,研究人员并未采用具备长链思维(Chain-of-Thought, COT)推理能力的基模型。转而通过课程式监督微调(Curriculum-Based Supervised Fine-Tuning, SFT)和直接偏好优化(Direct Preference Optimization, DPO)技术对其解题能力进行强化。

在评测中,Light-R1-32B在AIME24和AIME25基准测试中分别取得76.6分和64.6分的成绩,超越了DeepSeek-R1-Distill-Qwen-32B(72.6分和54.9分)。这一结果表明,即使从缺乏长链推理能力的基模型出发,基于课程学习的训练方法仍能有效增强数学推理能力。

公平基准测试

为确保评测公平性,研究人员对训练数据进行了基准污染清除,去除了AIME24/25、MATH-500和GPQA Diamond等常见推理基准的数据泄露风险。同时,他们通过基于难度的响应过滤(使用DeepScaleR-1.5B-preview模型),最终形成了包含7.6万条样本的第一阶段监督微调数据集。第二阶段则使用了更具挑战性的3000条样本来进一步提升性能。

训练完成后,团队通过合并多个版本的Light-R1-32B模型获得了额外性能增益。值得注意的是,尽管该模型专注于数学领域,其在科学推理任务(如GPQA)中仍保持了强大的泛化能力。

企业如何受益

Light-R1-32B采用Apache 2.0宽松开源许可证,允许企业、AI开发者及工程师免费使用、修改和商业部署,且无需开源衍生作品。这使得它成为企业定制化集成或专有应用开发的理想选择。

该许可证还包含免版税的全球专利授权,降低了企业的法律风险并避免专利纠纷。企业可自由将Light-R1-32B部署于商业产品中,同时保持对创新成果的完全控制,并受益于开放透明的AI生态。

对于CEO、CTO和IT领导者而言,Apache 2.0许可证确保了成本效率和供应商独立性——既免去许可费用,又摆脱对闭源AI解决方案的依赖。开发者则可无限制地对模型进行微调、集成和扩展,尤其适合数学推理、科研及企业级AI应用。

需要注意的是,尽管许可证不提供任何担保或责任覆盖,企业在关键场景部署前仍需自行开展安全、合规性和性能评估。

低成本训练与数学问题优化的透明化

此次研究的核心突破在于通过课程式训练方法,在低成本条件下实现数学模型的优化。即使基模型初始缺乏长链推理能力,通过分层训练策略和数据过滤技术,仍能高效提升复杂问题的解决能力。这种方法的公开性也为学术界和工业界提供了可复现的、低门槛的研发路径。

研究人员强调,Light-R1-32B 提供了一种经过验证的、成本效益高的方法,用于在专业领域训练强长链思维(Chain-of-Thought, CoT)模型。

通过共享其方法论、训练数据和代码,他们旨在降低高性能 AI 开发的成本门槛。展望未来,团队计划探索强化学习(Reinforcement Learning, RL)技术,以进一步提升模型的推理能力。

0 阅读:4

熟知外星君

简介:感谢大家的关注