Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty
作者: Joykirat Singh, Zaid Khan, Archiki Prasad, Justin Chih-Yao Chen, Akshay Nambi, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
分类: cs.CL, cs.AI
发布日期: 2026-05-12
备注: Code: https://github.com/joykirat18/Agent-BRACE
💡 一句话要点
Agent-BRACE:通过语言化的状态不确定性解耦信念与动作,解决长时程任务中的挑战。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 信念状态 不确定性建模 长时程任务 部分可观察环境 具身智能
📋 核心要点
- 现有LLM agent在长时程、部分可观察环境中面临上下文增长和不确定性管理的挑战,导致性能下降。
- Agent-BRACE通过解耦信念状态模型和策略模型,利用语言化的置信度来表示环境状态的不确定性,从而解决上述问题。
- 实验表明,Agent-BRACE在长时程任务中显著优于现有强化学习基线,并能有效控制上下文长度。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被部署在长时程任务和部分可观察环境中,在这些环境中,它们必须在推断和跟踪复杂环境状态的同时采取行动。这带来了两个挑战:部分可观察性需要维持对未观察到的世界属性的不确定性,而长交互历史会导致上下文无限增长,从而稀释与任务相关的信息。一个原则性的解决方案是信念状态:给定过去观察和行动的环境状态的后验分布,它紧凑地编码历史以进行决策,而与episode长度无关。然而,在LLM agent中,文本的开放性使得如何表示这种分布变得不清楚。因此,我们引入了Agent-BRACE:通过抽象和置信度估计的Agent信念状态表示,这是一种将LLM agent解耦为信念状态模型和策略模型的方法,并通过强化学习共同优化。信念状态模型产生信念分布的结构化近似:一组关于环境的原子自然语言声明,每个声明都用从确定到未知的有序语言化确定性标签进行注释。策略模型以这种紧凑的、结构化的近似信念为条件,而不是以完整的历史为条件,从而学习在显式不确定性下选择行动。在长时程、部分可观察的具身语言环境中,Agent-BRACE实现了平均绝对改进+14.5%(Qwen2.5-3B-Instruct)和+5.3%(Qwen3-4B-Instruct),优于强大的RL基线,同时保持了近乎恒定的上下文窗口,而与episode长度无关。进一步的分析表明,随着证据的积累,学习到的信念在episode过程中变得越来越校准。
🔬 方法详解
问题定义:论文旨在解决LLM agent在长时程、部分可观察环境中推理和行动时面临的挑战。现有方法难以有效处理不断增长的上下文和环境状态的不确定性,导致信息稀释和决策困难。
核心思路:核心思路是将LLM agent分解为两个模块:信念状态模型和策略模型。信念状态模型负责维护对环境状态的信念,并用自然语言描述,同时附带置信度信息。策略模型则基于该信念状态进行决策,从而实现解耦和模块化。
技术框架:Agent-BRACE包含以下主要模块:1) 观察编码器:将环境观察转换为LLM可理解的文本输入。2) 信念状态模型:使用LLM生成关于环境状态的自然语言声明,并为每个声明分配一个置信度标签。3) 策略模型:基于信念状态选择行动。4) 强化学习优化器:联合优化信念状态模型和策略模型,以最大化任务奖励。
关键创新:最重要的创新点在于使用语言化的置信度来表示环境状态的不确定性。这种方法允许LLM以一种可解释和可操作的方式表达其对环境的理解程度,并使策略模型能够根据不确定性进行决策。此外,解耦的架构使得信念状态的维护和策略学习可以独立进行,从而提高了效率和可扩展性。
关键设计:信念状态模型使用预训练的LLM(如Qwen)作为骨干网络,并进行微调以生成自然语言声明和置信度标签。置信度标签采用有序的离散值,例如“确定”、“可能”、“不确定”和“未知”。策略模型也使用LLM,并以信念状态作为输入,输出行动。使用强化学习算法(如PPO)联合训练两个模型,目标是最大化任务奖励。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Agent-BRACE在长时程、部分可观察的具身语言环境中显著优于现有强化学习基线。例如,在使用Qwen2.5-3B-Instruct作为LLM时,Agent-BRACE实现了平均绝对改进+14.5%;在使用Qwen3-4B-Instruct时,实现了+5.3%的改进。此外,Agent-BRACE能够保持近乎恒定的上下文窗口,而与episode长度无关。
🎯 应用场景
Agent-BRACE具有广泛的应用前景,例如机器人导航、智能家居控制、游戏AI等。通过有效管理不确定性和长时程依赖关系,Agent-BRACE可以使agent在复杂和动态的环境中做出更明智的决策,从而提高任务完成的效率和可靠性。该方法还有助于提高agent的可解释性和可调试性。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed on long-horizon tasks in partially observable environments, where they must act while inferring and tracking a complex environment state over many steps. This leads to two challenges: partial observability requires maintaining uncertainty over unobserved world attributes, and long interaction history causes context to grow without bound, diluting task-relevant information. A principled solution to both challenges is a belief state: a posterior distribution over environment states given past observations and actions, which compactly encodes history for decision making regardless of episode length. In LLM agents, however, the open-ended nature of text makes it unclear how to represent such a distribution. Therefore, we introduce Agent-BRACE: Agent Belief state Representation via Abstraction and Confidence Estimation, a method that decouples an LLM agent into a belief state model and a policy model, jointly optimized via reinforcement learning. The belief state model produces a structured approximation of the belief distribution: a set of atomic natural language claims about the environment, each annotated with an ordinal verbalized certainty label ranging from certain to unknown. The policy model conditions on this compact, structured approximate belief rather than the full history, learning to select actions under explicit uncertainty. Across long-horizon, partially observable embodied language environments, Agent-BRACE achieves an average absolute improvement of +14.5% (Qwen2.5-3B-Instruct) and +5.3% (Qwen3-4B-Instruct), outperforming strong RL baselines while maintaining a near-constant context window independent of episode length. Further analysis shows that the learned belief becomes increasingly calibrated over the course of an episode as evidence accumulates.