玩酷网

【[63星]Minimal-RL：用最简洁的方式提升大型语言模型的数学推理能力，

2025-04-19 11:55:33 爱生活爱珂珂科技

【[63星]Minimal-RL：用最简洁的方式提升大型语言模型的数学推理能力，从拒绝采样到强化学习的深度探索。亮点：1. RAFT++算法仅用正样本训练，早期收敛速度快；2. 提出Reinforce-rej新变体，KL效率提升显著；3. 项目代码开源，易于复现和扩展】

'A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce'

GitHub: github.com/RLHFlow/Minimal-RL

强化学习语言模型数学推理 AI创造营

阅读：2 点赞：0