How Much LLM Does a Self-Revising Agent Actually Need?

📄 arXiv: 2604.07236v1 📥 PDF

作者: Seongwoo Jeong, Seonil Son

分类: cs.AI, cs.CL

发布日期: 2026-04-08

备注: WIP


💡 一句话要点

通过外部化Agent状态,研究LLM在自修正Agent中的作用

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: LLM Agent 自修正Agent 世界模型 反思机制 运行时协议

📋 核心要点

  1. 现有基于LLM的Agent将世界建模等置于单一循环中,难以区分LLM本身和外部结构对Agent能力的贡献。
  2. 本文提出声明式反思运行时协议,将Agent状态等外部化,使其可被检查,从而隔离LLM的作用。
  3. 实验表明,显式世界模型规划提升显著,而少量LLM修订带来的提升微小且不稳定,验证了方法的可行性。

📝 摘要(中文)

基于LLM的Agent通常将世界建模、规划和反思置于单一语言模型循环中。这虽然能产生强大的行为,但难以回答一个基本科学问题:Agent的能力有多少来自LLM,又有多少来自外部结构?本文通过实证研究解决此问题,引入声明式反思运行时协议,将Agent状态、置信度信号、受保护动作和假设转换外部化为可检查的运行时结构。在有噪声的协同Battleship游戏中,通过四个渐进结构化的Agent,在54场游戏中评估了该协议。结果表明,显式世界模型规划显著优于贪婪后验跟踪基线。符号反思作为真实的运行时机制运行,但其修订预设总体上尚未产生净收益。在约4.3%的回合中添加条件LLM修订仅产生微小且非单调的变化。该研究的主要贡献是方法论上的,而非排行榜上的突破:外部化反思将原本潜在的Agent行为转化为可检查的运行时结构,从而可以直接研究LLM干预的边际作用。

🔬 方法详解

问题定义:现有基于LLM的Agent,其世界建模、规划和反思过程耦合在单一的语言模型循环中,导致难以评估LLM本身对Agent能力的贡献。这使得我们无法理解Agent行为的真正来源,也难以优化Agent的结构。

核心思路:本文的核心思路是将Agent的内部状态(如信念、置信度)、动作选择以及可能的转换过程显式地外部化,形成可观察、可控制的运行时结构。通过这种方式,可以隔离LLM的作用,并研究不同组件对Agent整体性能的影响。

技术框架:本文提出了一个声明式反思运行时协议,并在协同Battleship游戏中进行了实验。该协议包含以下几个主要组件:1) 后验信念跟踪:维护Agent对游戏状态的信念;2) 显式世界模型规划:使用世界模型进行规划,选择最优动作;3) 符号反思:基于预定义的规则进行反思,例如当置信度低于阈值时触发修订;4) LLM修订:在特定条件下,使用LLM对Agent的状态或动作进行修正。

关键创新:本文最重要的创新在于将Agent的内部状态和决策过程外部化,使其成为可观察和可控制的运行时结构。这种方法使得研究LLM在Agent中的作用成为可能,并为设计更有效的Agent架构提供了新的思路。与传统的黑盒Agent相比,本文的方法具有更高的可解释性和可调试性。

关键设计:在实验中,作者使用了四个渐进结构化的Agent,分别代表不同的组件组合。LLM修订在约4.3%的回合中触发,并且使用了预定义的修订策略。实验指标包括胜率和F1值,用于评估Agent的性能。

📊 实验亮点

实验结果表明,显式世界模型规划显著提高了Agent的胜率(+24.1pp)和F1值(+0.017)。符号反思作为运行时机制有效运行,但当前的修订预设尚未产生净收益。添加条件LLM修订仅带来微小且非单调的变化,平均F1值略有上升(+0.005),但胜率略有下降(31->29)。

🎯 应用场景

该研究的方法论可以应用于各种基于LLM的Agent设计,例如对话系统、机器人控制和游戏AI。通过外部化Agent状态,可以更好地理解和优化Agent的行为,并提高Agent的可靠性和可解释性。未来的研究可以探索更复杂的反思策略和LLM修订方法。

📄 摘要(原文)

Recent LLM-based agents often place world modeling, planning, and reflection inside a single language model loop. This can produce capable behavior, but it makes a basic scientific question difficult to answer: which part of the agent's competence actually comes from the LLM, and which part comes from explicit structure around it? We study this question not by claiming a general answer, but by making it empirically tractable. We introduce a declared reflective runtime protocol that externalizes agent state, confidence signals, guarded actions, and hypothetical transitions into inspectable runtime structure. We instantiate this protocol in a declarative runtime and evaluate it on noisy Collaborative Battleship [4] using four progressively structured agents over 54 games (18 boards $\times$ 3 seeds). The resulting decomposition isolates four components: posterior belief tracking, explicit world-model planning, symbolic in-episode reflection, and sparse LLM-based revision. Across this decomposition, explicit world-model planning improves substantially over a greedy posterior-following baseline (+24.1pp win rate, +0.017 F1). Symbolic reflection operates as a real runtime mechanism -- with prediction tracking, confidence gating, and guarded revision actions -- even though its current revision presets are not yet net-positive in aggregate. Adding conditional LLM revision at about 4.3\% of turns yields only a small and non-monotonic change: average F1 rises slightly (+0.005) while win rate drops (31$\rightarrow$29 out of 54). These results suggest a methodological contribution rather than a leaderboard claim: externalizing reflection turns otherwise latent agent behavior into inspectable runtime structure, allowing the marginal role of LLM intervention to be studied directly.