玩酷网

[LG]《Learning When to Plan: Efficiently

[LG]《Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents》D Paglieri, B Cupiał, J Cook, U Piterbarg... [University College London & University of Oxford] (2025)

训练大型语言模型(LLM)进行动态规划,实现测试时计算资源的智能分配,显著提升了长时序任务中的决策效率和性能。

• 发现“Goldilocks”规划频率:过度频繁规划带来行为不稳定与资源浪费,过少规划则限制性能,中间频率最优。

• 提出统一框架,将规划决策视为基于成本-收益权衡的动态决策,规划成本包括计算量、延迟及因频繁重规划引起的行为噪声。

• 两阶段训练策略:先通过多样化合成数据的监督微调(SFT)让模型掌握规划结构,再用强化学习(RL)优化动态规划决策,提升样本效率和复杂任务完成率。

• 实验环境涵盖部分可观测图搜索(POGS)和Minecraft风格的Crafter,验证动态规划策略的普适性和实用性。

• 训练出的代理不仅自主制定和执行计划,还能根据环境变化灵活重规划,且能被人类书面计划高效引导,展现更强的协同能力。

• SFT阶段显著降低模型与原始预训练模型的KL散度,减少微调过程中的行为偏离,促进更稳定的学习。

• 研究揭示规划能力的演进路径——从零次规划的无效策略,到固定频率规划的非最优,再到动态规划的智能计算分配。

• 规划策略学习不仅提升了任务表现,还减少了例如路径回溯等低效探索行为,实现更稳定合理的决策流程。

心得:

1. 理性分配计算资源比一味加码更有效,适度规划避免了“过度思考”带来的性能下降。

2. 通过引入显式自然语言计划,模型能更好地理解行为背后的因果逻辑,提升模仿学习效果。

3. 人机协同中,RL训练后的规划模型能精准执行人类指令,开启更安全与可控的智能体交互方式。

详情🔗 arxiv.org/abs/2509.03581

大语言模型强化学习动态规划智能体计算资源管理人机协同