《在 DeepSeek-R1 发布 100 天后，我们学到了什么？》arxiv.

《在 DeepSeek-R1 发布 100 天后，我们学到了什么？》

arxiv.org/pdf/2505.00551

这篇论文介绍了DeepSeek-R1模型发布后的100天内，学术界对其复制研究的进展和未来发展方向。（感觉有点催更的意思？）

Philipp Schmid总结的该论文的主要观点：

✨高质量、经过验证的思维链（Chain-of-Thought, CoT）数据对于监督微调（Supervised Fine-Tuning, SFT）是有效的。

✨为 SFT 挑选更难的问题（例如，基于较弱模型的低通过率筛选）能显著提升模型性能。

✨开放数据集中混杂有基准测试样本，需要仔细进行数据去污染（decontamination）以保证公平评估。

✨倾向于包含更长 CoT（通常意味着问题更复杂）的数据集，在 SFT 后往往能带来更好的推理性能。

✨SFT 能有效地赋予模型推理结构，为后续的强化学习（Reinforcement Learning, RL）奠定必要基础。

✨相较于基础模型，已经过指令微调的模型在 SFT 阶段能更有效地学习推理模式。

✨强化学习（RL）数据集受益于严格的验证过程（例如使用数学求解器、代码执行）以及筛选掉模型可能出错的“不确定性”样本。

✨使用简单的、可验证的、基于结果的奖励（例如，判断对错）是有效的，并且能降低奖励操纵（reward hacking）的风险。

✨在推理模型的强化学习（RL for Verification/Reasoning）中，明确的格式或长度奖励的必要性和益处尚存争议，有时模型可以隐式地学习这些方面。

✨PPO 和 GRPO 是最常用的 RL 算法，但它们的变体（如 DAPO、Dr. GRPO、VC-PPO、VAPO）被设计用于解决偏差（如长度偏差、难度偏差）和训练不稳定性问题。

✨KL 损失虽然常用于提升训练稳定性，但在推理模型的 RL 训练中有时会被省略，或者发现它会限制模型的探索能力和最终的性能提升。

✨在 RL 训练过程中，逐步增加训练样本的难度或模型允许的最大响应长度，有助于提升性能和稳定性。

✨将训练重点放在更难的样本上，或者剔除模型已经“学会解决”的简单样本，这类策略可以提升 RL 的训练效率。

✨集成了价值函数的方法（如 VC-PPO、VAPO）在处理长 CoT 问题时，其表现可能优于无价值函数的方法（如 GRPO）。

✨RL 训练能够提升模型的域外泛化能力，其效果可能超越单独使用 SFT，甚至能泛化到看似不相关的任务上（例如，通过数学/代码训练提升写诗能力）。

✨推理模型带来了新的安全挑战，例如奖励操纵（reward hacking）、过度思考（overthinking）以及特定的越狱（jailbreaking）漏洞。

✨对于较小规模的模型（例如

玩酷网