When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

📄 arXiv: 2605.30219v1 📥 PDF

作者: Haoming Xu, Weihong Xu, Zongrui Li, Mengru Wang, Yunzhi Yao, Chiyu Wu, Jin Shang, Yu Gong, Shumin Deng

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-05-28

备注: Work in progress

🔗 代码/项目: GITHUB


💡 一句话要点

提出上下文信念管理框架,解决LLM在长程交互中信念状态维护问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文信念管理 长程交互 语言模型 强化学习 信念状态跟踪

📋 核心要点

  1. 长程交互中,语言模型需要有效管理和更新信息,现有方法难以在复杂上下文中准确维护信念状态。
  2. 论文提出上下文信念管理(CBM)框架,通过可衡量的指标和基准测试,诊断模型在信念状态管理中的失败。
  3. 实验表明,强化学习和表示层面的引导能显著提升模型在BeliefTrack基准上的性能,降低信念管理失败率。

📝 摘要(中文)

本文研究了长程交互中语言模型管理累积信息的问题,即何时更新状态、何时保持状态以及忽略哪些信息。作者将此挑战定义为上下文信念管理(CBM):保持预测的信念状态与形式证据对齐,同时隔离任务无关的噪声。为了使CBM可衡量,作者引入了 BeliefTrack,一个封闭世界的基准,涵盖规则发现和电路诊断,其中有限的信念空间和符号验证器能够实现精确的turn-level评估。BeliefTrack诊断了三种失败:Failed Stay、Failed Update和Failed Isolation。在多个LLM上,vanilla模型表现出严重的CBM失败,而显式的信念跟踪提示提供的收益有限。相比之下,使用信念状态奖励的强化学习平均降低了70.9%的失败率。进一步的探究揭示了这些失败背后的潜在信念状态动态,并且表示层面的引导在两个任务中降低了46.1%的失败率。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在长程交互中维护和更新信念状态的问题。现有方法,如直接提示或微调,在处理复杂上下文时,难以准确跟踪和更新信念,容易受到无关信息干扰,导致信念状态与实际证据不一致。这限制了LLM在需要长期记忆和推理的任务中的应用。

核心思路:论文的核心思路是将信念状态管理问题形式化为上下文信念管理(CBM),并设计可衡量的指标来评估模型在不同上下文中的信念维护能力。通过引入BeliefTrack基准,提供了一个封闭世界的环境,可以精确评估模型在规则发现和电路诊断等任务中的表现。此外,论文探索了强化学习和表示层面的引导等方法,以提升模型的CBM能力。

技术框架:论文的技术框架主要包括三个部分:1) BeliefTrack基准的构建,包含规则发现和电路诊断两个任务,提供有限的信念空间和符号验证器,用于精确评估模型的信念状态;2) CBM指标的定义,包括Failed Stay(未能保持正确的信念)、Failed Update(未能根据新信息更新信念)和Failed Isolation(未能隔离无关信息)三种失败类型;3) 基于强化学习和表示引导的CBM优化方法,通过信念状态奖励来训练模型,并利用表示层面的引导来调整模型的内部表示。

关键创新:论文的关键创新在于:1) 提出了上下文信念管理(CBM)的概念,并将其形式化为一个可衡量的任务;2) 构建了BeliefTrack基准,为评估LLM的CBM能力提供了一个标准化的平台;3) 探索了强化学习和表示引导等方法,显著提升了LLM在CBM任务上的性能。与现有方法相比,该研究更关注模型在复杂上下文中的信念状态维护能力,并提供了更有效的优化策略。

关键设计:BeliefTrack基准的关键设计包括:1) 封闭世界的设定,保证了信念空间的有限性和可枚举性;2) 符号验证器的引入,实现了对模型信念状态的精确评估;3) 多种任务类型的选择,涵盖了规则发现和电路诊断等不同类型的推理任务。强化学习方法中,关键设计在于信念状态奖励的定义,奖励函数的设计需要能够准确反映模型信念状态的正确性。表示引导方法中,关键设计在于如何选择合适的引导方向,以及如何有效地调整模型的内部表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,vanilla LLM在BeliefTrack基准上表现出严重的CBM失败。显式的信念跟踪提示带来的收益有限。使用信念状态奖励的强化学习平均降低了70.9%的失败率。表示层面的引导在两个任务中降低了46.1%的失败率。这些结果表明,通过有效的训练方法,可以显著提升LLM在复杂上下文中的信念管理能力。

🎯 应用场景

该研究成果可应用于需要长期记忆和推理的对话系统、智能助手、游戏AI等领域。通过提升模型在复杂上下文中的信念管理能力,可以使其更好地理解用户意图、跟踪对话状态,并做出更合理的决策。未来,该研究可以扩展到更复杂的开放世界环境,并与其他技术(如知识图谱、外部记忆)相结合,进一步提升LLM的智能水平。

📄 摘要(原文)

Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as \textbf{Contextual Belief Management (CBM)}: maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.