Efficient Agentic Reasoning Through Self-Regulated Simulative Planning

📄 arXiv: 2605.22138v1 📥 PDF

作者: Mingkai Deng, Jinyu Hou, Lara Sá Neves, Varad Pimpalkhute, Taylor W. Killian, Zhengzhong Liu, Eric P. Xing

分类: cs.AI, cs.CL, cs.LG, cs.RO

发布日期: 2026-05-21

备注: Code and model artifacts are available at https://github.com/sailing-lab/sr2am


💡 一句话要点

提出SR$^2$AM,通过自调节模拟规划实现高效的Agentic推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic推理 自调节规划 模拟推理 世界模型 强化学习 LLM 链式思考

📋 核心要点

  1. 现有Agentic推理方法依赖端到端训练,缺乏对规划过程的显式控制,导致推理长度增加和token使用效率低下。
  2. 本文提出SR$^2$AM,将决策分解为模拟推理、自调节和反应式执行三个系统,实现更高效的Agentic推理。
  3. 实验表明,SR$^2$AM在多个任务上取得了与更大模型相当的性能,同时显著减少了推理token的使用。

📝 摘要(中文)

本文提出了一种高效的Agentic推理方法,该方法将决策过程分解为三个系统:模拟推理(System II),通过世界模型预测未来状态以进行审议;自调节(System III),通过学习到的配置器决定何时以及如何深入规划;以及反应式执行(System I),处理细粒度的动作。模拟推理为各种任务提供统一的规划,无需针对每个领域进行工程设计,而自调节确保仅在需要时才调用规划器。为了验证该方法,我们开发了SR$^2$AM(自调节模拟推理Agentic LLM),在LLM的思维链中实现这两个阶段,并将LLM作为世界模型。我们探索了两种实例化:记录来自提示的多模块系统的决策(v0.1)和从预训练推理LLM的轨迹中重建结构化计划(v1.0),通过监督学习然后强化学习(RL)进行训练。在数学、科学、表格分析和网络信息搜索等任务中,v0.1-8B和v1.0-30B的Pass@1性能与120-355B和685B-1T参数的系统相比具有竞争力,同时v1.0-30B使用的推理token比同类Agentic LLM少25.8-95.3%。强化学习使平均规划范围增加了22.8%,而规划频率仅增长了2.0%,表明它学会了更长远地规划,而不是更频繁地规划。更广泛地说,学习到的自调节实例化了一个原则,我们期望将其扩展到规划之外,扩展到Agent如何管理自己的学习和适应。

🔬 方法详解

问题定义:现有Agentic推理方法,特别是基于LLM的Agent,通常采用链式思考(Chain-of-Thought)等方式,期望通过端到端训练隐式地涌现规划能力。然而,这种方法缺乏对规划过程的显式控制,导致推理链条过长,token使用效率低下,且难以保证准确性。现有方法难以决定何时进行规划,以及规划的深度和范围,导致资源浪费和性能瓶颈。

核心思路:本文的核心思路是将Agent的决策过程分解为三个独立的系统:模拟推理(System II)、自调节(System III)和反应式执行(System I)。模拟推理负责基于世界模型进行未来状态预测,从而进行规划;自调节系统负责决定何时以及如何深入地进行规划;反应式执行系统负责处理细粒度的动作执行。通过这种分解,可以实现对规划过程的显式控制,提高token使用效率和推理准确性。

技术框架:SR$^2$AM的整体架构包含三个主要模块:1) 世界模型:使用LLM作为世界模型,用于预测未来状态。2) 模拟推理:基于世界模型进行模拟,生成可能的行动序列,并评估其结果。3) 自调节器:学习一个策略,用于决定何时调用模拟推理模块,以及规划的深度和范围。4) 反应式执行:根据自调节器的决策和模拟推理的结果,执行具体的动作。整个流程在LLM的链式思考框架内实现,每个模块对应链式思考的一个步骤。

关键创新:本文最重要的技术创新在于引入了自调节系统,该系统能够根据当前状态和任务需求,动态地调整规划的频率和深度。与传统的端到端方法相比,自调节系统能够显式地控制规划过程,避免不必要的计算和token消耗。此外,将决策过程分解为三个独立的系统,使得每个系统可以独立地进行优化和改进。

关键设计:SR$^2$AM的自调节器通过监督学习和强化学习进行训练。在监督学习阶段,使用人工标注的规划轨迹作为训练数据,学习自调节器的初始策略。在强化学习阶段,使用奖励函数来鼓励Agent进行更有效率的规划,例如,奖励Agent在更短的规划时间内达到目标。具体而言,论文探索了两种实例化方式:v0.1版本通过记录人工提示的多模块系统的决策进行训练,v1.0版本则从预训练LLM的推理轨迹中重建结构化计划,然后进行训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SR$^2$AM在数学、科学、表格分析和网络信息搜索等任务上取得了显著的性能提升。例如,v1.0-30B版本的SR$^2$AM在Pass@1指标上与参数量高达120-355B和685B-1T的系统相比具有竞争力,同时使用的推理token减少了25.8-95.3%。强化学习训练使得平均规划范围增加了22.8%,而规划频率仅增长了2.0%,表明Agent学会了更长远地规划,而不是更频繁地规划。

🎯 应用场景

SR$^2$AM具有广泛的应用前景,可以应用于各种需要复杂推理和规划的任务中,例如机器人导航、游戏AI、对话系统、以及自动化决策等。通过提高Agent的推理效率和准确性,可以降低计算成本,并提升用户体验。该研究对于开发更智能、更高效的Agent系统具有重要的实际价值和未来影响。

📄 摘要(原文)

How should an agent decide when and how to plan? A dominant approach builds agents as reactive policies with adaptive computation (e.g., chain-of-thought), trained end-to-end expecting planning to emerge implicitly. Without control over the presence, structure, or horizon of planning, these systems dramatically increase reasoning length, yielding inefficient token use without reliable accuracy gains. We argue efficient agentic reasoning benefits from decomposing decision-making into three systems: simulative reasoning (System II) grounding deliberation in future-state prediction via a world model; self-regulation (System III) deciding when and how deeply to plan via a learned configurator; and reactive execution (System I) handling fine-grained action. Simulative reasoning provides unified planning across diverse tasks without per-domain engineering, while self-regulation ensures the planner is invoked only when needed. To test this, we develop SR$^2$AM (Self-Regulated Simulative Reasoning Agentic LLM), realizing both as distinct stages within an LLM's chain-of-thought, with the LLM as world model. We explore two instantiations: recording decisions from a prompted multi-module system (v0.1) and reconstructing structured plans from traces of pretrained reasoning LLMs (v1.0), trained via supervised then reinforcement learning (RL). Across math, science, tabular analysis, and web information seeking, v0.1-8B and v1.0-30B achieve Pass@1 competitive with 120-355B and 685B-1T parameter systems respectively, while v1.0-30B uses 25.8-95.3% fewer reasoning tokens than comparable agentic LLMs. RL increases average planning horizon by 22.8% while planning frequency grows only 2.0%, showing it learns to plan further ahead rather than more often. More broadly, learned self-regulation instantiates a principle we expect to extend beyond planning to how agents govern their own learning and adaptation.