[LG]《Learning When to Plan: Efficiently

[LG]《Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents》D Paglieri, B Cupiał, J Cook, U Piterbarg... [University College London & University of Oxford] (2025)

训练大型语言模型（LLM）进行动态规划，实现测试时计算资源的智能分配，显著提升了长时序任务中的决策效率和性能。

• 发现“Goldilocks”规划频率：过度频繁规划带来行为不稳定与资源浪费，过少规划则限制性能，中间频率最优。

• 提出统一框架，将规划决策视为基于成本-收益权衡的动态决策，规划成本包括计算量、延迟及因频繁重规划引起的行为噪声。

• 两阶段训练策略：先通过多样化合成数据的监督微调（SFT）让模型掌握规划结构，再用强化学习（RL）优化动态规划决策，提升样本效率和复杂任务完成率。

• 实验环境涵盖部分可观测图搜索（POGS）和Minecraft风格的Crafter，验证动态规划策略的普适性和实用性。

• 训练出的代理不仅自主制定和执行计划，还能根据环境变化灵活重规划，且能被人类书面计划高效引导，展现更强的协同能力。

• SFT阶段显著降低模型与原始预训练模型的KL散度，减少微调过程中的行为偏离，促进更稳定的学习。

• 研究揭示规划能力的演进路径——从零次规划的无效策略，到固定频率规划的非最优，再到动态规划的智能计算分配。

• 规划策略学习不仅提升了任务表现，还减少了例如路径回溯等低效探索行为，实现更稳定合理的决策流程。

心得：

1. 理性分配计算资源比一味加码更有效，适度规划避免了“过度思考”带来的性能下降。

2. 通过引入显式自然语言计划，模型能更好地理解行为背后的因果逻辑，提升模仿学习效果。

3. 人机协同中，RL训练后的规划模型能精准执行人类指令，开启更安全与可控的智能体交互方式。

详情🔗 arxiv.org/abs/2509.03581

大语言模型强化学习动态规划智能体计算资源管理人机协同

玩酷网

[LG]《Learning When to Plan: Efficiently

热门分类