玩酷网

【[63星]Minimal-RL:用最简洁的方式提升大型语言模型的数学推理能力,

【[63星]Minimal-RL:用最简洁的方式提升大型语言模型的数学推理能力,从拒绝采样到强化学习的深度探索。亮点:1. RAFT++算法仅用正样本训练,早期收敛速度快;2. 提出Reinforce-rej新变体,KL效率提升显著;3. 项目代码开源,易于复现和扩展】

'A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce'

GitHub: github.com/RLHFlow/Minimal-RL

强化学习 语言模型 数学推理 AI创造营