玩酷网

强化学习的策略优化正迎来全新突破,9种创新技术重塑LLM、VLM及agent训练

强化学习的策略优化正迎来全新突破,9种创新技术重塑LLM、VLM及agent训练范式:

• GSPO(Group Sequence Policy Optimization)

从token级别跃升到序列级别优化,通过序列裁剪和奖励提升稳定性,兼顾token细调。

• LAPO(Length-Adaptive Policy Optimization)

两阶段RL框架,自动学习并调节推理长度,提升推理效率与简洁度。

• HBPO(Hierarchical Budget Policy Optimization)

按问题复杂度自适应推理深度,基于token预算分组训练,奖励匹配任务难度。

• SOPHIA(Semi-off-policy RL)

结合VLM的在线视觉理解与LM的离线推理,逆向传播视觉奖励以强化慢思考推理。

• RePO(Replay-Enhanced Policy Optimization)

在on-policy RL中引入重放缓冲,利用多样离线样本扩充单提示训练数据,丰富模型视野。

• CISPO(Clipped Importance Sampling Policy Optimization)

采用重要性采样权重裁剪,避免token级裁剪丢失关键信息,不依赖KL惩罚,提升学习全面性。

• PAPO(Perception-Aware Policy Optimization)

增加基于KL的感知损失,强化视觉语言任务中的视觉对齐,准确率提升4–8%,感知错误减少约30%。

• OPO(On-Policy RL with Optimal Baseline)

微软提出,严格采用最新策略采样,减少off-policy偏差,降低梯度方差,无需辅助模型和正则化。

• EXPO(Expressive Policy Optimization)

结合大模型与轻量编辑策略,选择最优动作,无需对大模型反向传播,训练更高效。

本质上,这些方法突破传统单一token优化,强调序列级别、灵活预算、视觉感知与多样数据重用,推动RL在语言和视觉多模态任务中的长期进化。深入理解这些技术框架,有助于构建更稳健、高效、自适应的智能体训练体系。

详细解析🔗 huggingface.co/posts/Kseniase/659752309280422

强化学习 大模型训练 策略优化 多模态AI 机器学习 人工智能