近日,DeepSeek与清华大学联合发布了一篇题为《Inference-Time Scaling for Generalist Reward Modeling》的论文,提出了一种名为"自我原则点评调优(SPCT)"的全新学习方法,这项技术突破很可能成为即将发布的DeepSeek R2模型的核心能力之一。这项研究不仅为通用奖励建模开辟了新路径,更展示了如何通过优化推理阶段的计算资源分配来显著提升大语言模型的性能,而无需增加模型参数量。

在大型语言模型(LLM)的训练中,强化学习(RL)已成为提升模型推理能力的关键技术。然而,传统RL面临一个根本性挑战:如何在缺乏明确规则或可验证答案的广泛领域中,为模型提供准确的奖励信号。现有的奖励模型(RM)往往局限于特定领域,难以适应多样化的查询场景。
DeepSeek和清华的研究团队发现,采用"点式生成式奖励建模(Pointwise GRM)"方法可以显著提升模型的灵活性。与传统的固定格式奖励模型不同,GRM能够统一处理单个、成对和多个响应的评分,从而克服了格式不一致带来的挑战。这种方法的创新之处在于,它不再依赖预定义的原则来引导奖励生成,而是让模型自主生成评判原则,并根据这些原则动态产生点评内容。

SPCT(Self-Principled Critique Tuning,自我原则点评调优)是这项研究的核心创新,它包含两个关键阶段:
(1) 拒绝式微调阶段:作为"冷启动",这一阶段让GRM适应不同输入类型,并学会以正确格式生成原则与点评内容。研究团队采用了独特的拒绝策略——只有当模型预测的奖励与真实奖励不一致,或者所有采样结果都过于简单时,才会拒绝该轨迹。这种策略有效避免了数据偏差。(2) 基于规则的在线强化学习阶段:在这一阶段,GRM通过不断优化生成的原则和点评内容来增强奖励生成能力。与DeepSeek此前的工作不同,研究者放弃了格式奖励,转而采用更高的KL惩罚系数来确保输出格式的正确性。特别值得注意的是,SPCT将"原则"从传统的理解过程解耦出来,转变为奖励生成流程的一部分。这意味着模型不再被动接受预设原则,而是能够根据输入问题和回答内容动态生成评判标准,使奖励生成过程更具适应性。

研究团队探索了如何利用更多推理计算资源,通过基于采样的策略实现有效的推理时扩展。其核心方法包括:
生成奖励投票机制:通过多次采样生成不同的原则集和相应点评,然后对奖励进行投票求和。这种方法实际上将奖励空间扩大了k倍,使GRM能够生成更丰富、更细致的评判视角。元奖励模型引导:为了解决随机采样可能带来的偏差问题,团队训练了一个元奖励模型(meta RM)来筛选高质量的采样结果。实验证明,meta RM引导的投票能显著提升最终奖励的质量和一致性。基于Gemma-2-27B训练的DeepSeek-GRM-27B模型,在采用32个样本直接投票时,其性能可与671B参数的更大模型相媲美。而meta RM引导的投票仅需8个样本就能达到最佳效果,充分证明了推理时扩展的有效性。

这项研究的价值不仅体现在技术指标上,更在于它为大型语言模型的发展提供了新思路:
性价比革命:相比单纯扩大模型规模,推理时扩展能以更低成本获得可比甚至更优的性能。这对于降低大模型应用门槛具有重要意义。动态适应能力:自主生成原则的机制使模型能够更好地适应多样化的现实场景,不再受限于预设规则。这种灵活性对构建真正的通用人工智能至关重要。可解释性提升:通过展示生成的原则和点评,用户可以更直观地理解模型的评判标准,增强了系统的透明度和可信度。5.展望DeepSeek R2虽然DeepSeek官方尚未正式公布R2的细节,但这项研究很可能预示着R2的核心技术方向。与R1主要依靠强化学习提升推理能力不同,R2可能会更注重推理阶段的优化和扩展。
从技术发展脉络看,DeepSeek正从"训练阶段优化"转向"推理阶段优化",这一转变与行业追求更高性价比的趋势高度一致。可以预见,R2将不仅在性能上有所突破,更可能在成本效益和适用范围上带来惊喜。
随着AI技术进入深水区,像SPCT这样的创新表明,大模型的发展不再只是"更大更强",而是向着"更智能、更经济、更灵活"的方向演进。DeepSeek R2的即将到来,或将再次刷新我们对大型语言模型能力的认知。