玩酷网

《在 DeepSeek-R1 发布 100 天后,我们学到了什么?》arxiv.

《在 DeepSeek-R1 发布 100 天后,我们学到了什么?》

arxiv.org/pdf/2505.00551

这篇论文介绍了DeepSeek-R1模型发布后的100天内,学术界对其复制研究的进展和未来发展方向。(感觉有点催更的意思?)

Philipp Schmid总结的该论文的主要观点:

✨高质量、经过验证的思维链(Chain-of-Thought, CoT)数据对于监督微调(Supervised Fine-Tuning, SFT)是有效的。

✨为 SFT 挑选更难的问题(例如,基于较弱模型的低通过率筛选)能显著提升模型性能。

✨开放数据集中混杂有基准测试样本,需要仔细进行数据去污染(decontamination)以保证公平评估。

✨倾向于包含更长 CoT(通常意味着问题更复杂)的数据集,在 SFT 后往往能带来更好的推理性能。

✨SFT 能有效地赋予模型推理结构,为后续的强化学习(Reinforcement Learning, RL)奠定必要基础。

✨相较于基础模型,已经过指令微调的模型在 SFT 阶段能更有效地学习推理模式。

✨强化学习(RL)数据集受益于严格的验证过程(例如使用数学求解器、代码执行)以及筛选掉模型可能出错的“不确定性”样本。

✨使用简单的、可验证的、基于结果的奖励(例如,判断对错)是有效的,并且能降低奖励操纵(reward hacking)的风险。

✨在推理模型的强化学习(RL for Verification/Reasoning)中,明确的格式或长度奖励的必要性和益处尚存争议,有时模型可以隐式地学习这些方面。

✨PPO 和 GRPO 是最常用的 RL 算法,但它们的变体(如 DAPO、Dr. GRPO、VC-PPO、VAPO)被设计用于解决偏差(如长度偏差、难度偏差)和训练不稳定性问题。

✨KL 损失虽然常用于提升训练稳定性,但在推理模型的 RL 训练中有时会被省略,或者发现它会限制模型的探索能力和最终的性能提升。

✨在 RL 训练过程中,逐步增加训练样本的难度或模型允许的最大响应长度,有助于提升性能和稳定性。

✨将训练重点放在更难的样本上,或者剔除模型已经“学会解决”的简单样本,这类策略可以提升 RL 的训练效率。

✨集成了价值函数的方法(如 VC-PPO、VAPO)在处理长 CoT 问题时,其表现可能优于无价值函数的方法(如 GRPO)。

✨RL 训练能够提升模型的域外泛化能力,其效果可能超越单独使用 SFT,甚至能泛化到看似不相关的任务上(例如,通过数学/代码训练提升写诗能力)。

✨推理模型带来了新的安全挑战,例如奖励操纵(reward hacking)、过度思考(overthinking)以及特定的越狱(jailbreaking)漏洞。

✨对于较小规模的模型(例如