How Much LLM Does a Self-Revising Agent Actually Need?

作者: Seongwoo Jeong, Seonil Son

分类: cs.AI, cs.CL

发布日期: 2026-04-08

备注: WIP

💡 一句话要点

通过外部化Agent状态，研究LLM在自修正Agent中的作用

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: LLM Agent 自修正Agent 世界模型 反思机制 运行时协议

📋 核心要点

现有基于LLM的Agent将世界建模等置于单一循环中，难以区分LLM本身和外部结构对Agent能力的贡献。
本文提出声明式反思运行时协议，将Agent状态等外部化，使其可被检查，从而隔离LLM的作用。
实验表明，显式世界模型规划提升显著，而少量LLM修订带来的提升微小且不稳定，验证了方法的可行性。

📝 摘要（中文）

基于LLM的Agent通常将世界建模、规划和反思置于单一语言模型循环中。这虽然能产生强大的行为，但难以回答一个基本科学问题：Agent的能力有多少来自LLM，又有多少来自外部结构？本文通过实证研究解决此问题，引入声明式反思运行时协议，将Agent状态、置信度信号、受保护动作和假设转换外部化为可检查的运行时结构。在有噪声的协同Battleship游戏中，通过四个渐进结构化的Agent，在54场游戏中评估了该协议。结果表明，显式世界模型规划显著优于贪婪后验跟踪基线。符号反思作为真实的运行时机制运行，但其修订预设总体上尚未产生净收益。在约4.3%的回合中添加条件LLM修订仅产生微小且非单调的变化。该研究的主要贡献是方法论上的，而非排行榜上的突破：外部化反思将原本潜在的Agent行为转化为可检查的运行时结构，从而可以直接研究LLM干预的边际作用。

🔬 方法详解

问题定义：现有基于LLM的Agent，其世界建模、规划和反思过程耦合在单一的语言模型循环中，导致难以评估LLM本身对Agent能力的贡献。这使得我们无法理解Agent行为的真正来源，也难以优化Agent的结构。

核心思路：本文的核心思路是将Agent的内部状态（如信念、置信度）、动作选择以及可能的转换过程显式地外部化，形成可观察、可控制的运行时结构。通过这种方式，可以隔离LLM的作用，并研究不同组件对Agent整体性能的影响。

技术框架：本文提出了一个声明式反思运行时协议，并在协同Battleship游戏中进行了实验。该协议包含以下几个主要组件：1) 后验信念跟踪：维护Agent对游戏状态的信念；2) 显式世界模型规划：使用世界模型进行规划，选择最优动作；3) 符号反思：基于预定义的规则进行反思，例如当置信度低于阈值时触发修订；4) LLM修订：在特定条件下，使用LLM对Agent的状态或动作进行修正。

关键创新：本文最重要的创新在于将Agent的内部状态和决策过程外部化，使其成为可观察和可控制的运行时结构。这种方法使得研究LLM在Agent中的作用成为可能，并为设计更有效的Agent架构提供了新的思路。与传统的黑盒Agent相比，本文的方法具有更高的可解释性和可调试性。

关键设计：在实验中，作者使用了四个渐进结构化的Agent，分别代表不同的组件组合。LLM修订在约4.3%的回合中触发，并且使用了预定义的修订策略。实验指标包括胜率和F1值，用于评估Agent的性能。

📊 实验亮点

实验结果表明，显式世界模型规划显著提高了Agent的胜率（+24.1pp）和F1值（+0.017）。符号反思作为运行时机制有效运行，但当前的修订预设尚未产生净收益。添加条件LLM修订仅带来微小且非单调的变化，平均F1值略有上升（+0.005），但胜率略有下降（31->29）。

🎯 应用场景

该研究的方法论可以应用于各种基于LLM的Agent设计，例如对话系统、机器人控制和游戏AI。通过外部化Agent状态，可以更好地理解和优化Agent的行为，并提高Agent的可靠性和可解释性。未来的研究可以探索更复杂的反思策略和LLM修订方法。

📄 摘要（原文）

Recent LLM-based agents often place world modeling, planning, and reflection inside a single language model loop. This can produce capable behavior, but it makes a basic scientific question difficult to answer: which part of the agent's competence actually comes from the LLM, and which part comes from explicit structure around it? We study this question not by claiming a general answer, but by making it empirically tractable. We introduce a declared reflective runtime protocol that externalizes agent state, confidence signals, guarded actions, and hypothetical transitions into inspectable runtime structure. We instantiate this protocol in a declarative runtime and evaluate it on noisy Collaborative Battleship [4] using four progressively structured agents over 54 games (18 boards $\times$ 3 seeds). The resulting decomposition isolates four components: posterior belief tracking, explicit world-model planning, symbolic in-episode reflection, and sparse LLM-based revision. Across this decomposition, explicit world-model planning improves substantially over a greedy posterior-following baseline (+24.1pp win rate, +0.017 F1). Symbolic reflection operates as a real runtime mechanism -- with prediction tracking, confidence gating, and guarded revision actions -- even though its current revision presets are not yet net-positive in aggregate. Adding conditional LLM revision at about 4.3\% of turns yields only a small and non-monotonic change: average F1 rises slightly (+0.005) while win rate drops (31$\rightarrow$29 out of 54). These results suggest a methodological contribution rather than a leaderboard claim: externalizing reflection turns otherwise latent agent behavior into inspectable runtime structure, allowing the marginal role of LLM intervention to be studied directly.

How Much LLM Does a Self-Revising Agent Actually Need?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理