$\mathbf{T^3}$: Reducing Belief Deviation in Reinforcement Learning for Active Reasoning
作者: Deyu Zou, Yongqiang Chen, Jianxiang Wang, Haochen Yang, Mufei Li, James Cheng, Pan Li, Yu Gong
分类: cs.AI
发布日期: 2025-10-14
💡 一句话要点
提出T^3方法,通过减少信念偏差提升LLM在主动推理强化学习中的性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动推理 强化学习 大型语言模型 信念追踪 信念偏差
📋 核心要点
- LLM智能体在主动推理中面临信念偏差问题,导致无法正确建模问题状态和采取有效行动。
- T^3方法通过跟踪信念偏差,在训练中截断偏差过大的轨迹,保留有效探索步骤的奖励。
- 实验表明,T^3在多个任务中显著提升了训练稳定性、token效率和最终性能,最高提升30%。
📝 摘要(中文)
主动推理要求大型语言模型(LLM)与外部资源交互并策略性地收集信息以解决问题。此过程的核心是信念追踪:保持对问题状态和缺失信息的连贯理解以实现解决方案。然而,由于有限的推理能力,基于LLM的智能体经常遭受信念偏差:它们难以正确建模信念,失去对问题状态的跟踪,并陷入无信息或重复的动作。一旦发生这种情况,错误就会累积,强化学习(RL)训练无法正确地评估关键的探索步骤。为了解决这个问题,我们提出跟踪模型信念的偏差,并开发T^3,一种简单而有效的方法,可以检测过度的信念偏差并在训练期间截断轨迹以消除无信息的尾部。通过保留对信息丰富的前缀的奖励,T^3系统地改进了策略优化。在5个具有挑战性的任务中,T^3始终提高训练稳定性、token效率和最终性能,实现了高达30%的收益,同时减少了大约25%的rollout token。这些结果突出了信念控制是开发稳健和可泛化的基于LLM的主动推理器的关键原则。
🔬 方法详解
问题定义:论文旨在解决LLM在主动推理任务中由于信念偏差导致的性能下降问题。现有方法难以有效建模问题状态,导致智能体陷入无信息或重复的动作,进而影响强化学习训练的效果。这种信念偏差会使得智能体无法正确评估早期探索步骤的价值,阻碍策略优化。
核心思路:论文的核心思路是跟踪LLM智能体在推理过程中的信念偏差,并在训练过程中截断那些信念偏差过大的轨迹。通过移除无信息的轨迹尾部,保留信息丰富的前缀,从而更准确地评估早期探索步骤的价值,并改进策略优化。
技术框架:T^3方法主要包含以下几个阶段:1) LLM智能体与环境交互,生成轨迹数据;2) 跟踪智能体的信念状态,并计算信念偏差;3) 根据信念偏差,截断偏差过大的轨迹;4) 使用截断后的轨迹进行强化学习训练,优化策略。
关键创新:T^3的关键创新在于引入了信念偏差的概念,并将其作为轨迹截断的依据。与传统的基于奖励或时间步的轨迹截断方法不同,T^3能够更准确地识别和移除无信息的轨迹部分,从而提高训练效率和性能。
关键设计:论文中信念偏差的具体计算方式未知,但可以推测是基于LLM的输出概率分布或隐藏状态的差异来衡量的。轨迹截断的阈值需要根据具体任务进行调整。此外,强化学习算法的选择也会影响T^3的性能。论文中使用的具体强化学习算法未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,T^3方法在5个具有挑战性的主动推理任务中,始终能够提高训练稳定性、token效率和最终性能。具体而言,T^3实现了高达30%的性能提升,同时减少了大约25%的rollout token。这些结果表明,信念控制是开发稳健和可泛化的基于LLM的主动推理器的关键。
🎯 应用场景
该研究成果可应用于需要主动推理的各种场景,例如智能客服、自动驾驶、机器人导航、游戏AI等。通过减少信念偏差,可以提升智能体在复杂环境中的决策能力和问题解决能力,使其更加可靠和高效。未来,该方法有望进一步推广到其他类型的智能体和任务中。
📄 摘要(原文)
Active reasoning requires large language models (LLMs) to interact with external sources and strategically gather information to solve problems. Central to this process is belief tracking: maintaining a coherent understanding of the problem state and the missing information toward the solution. However, due to limited reasoning capabilities, LLM-based agents often suffer from belief deviation: they struggle to correctly model beliefs, lose track of problem states, and fall into uninformative or repetitive actions. Once this happens, errors compound and reinforcement learning (RL) training fails to properly credit the crucial exploratory steps. To address this issue, we propose to track the deviation of model beliefs and develop $\mathbf{T^3}$, a simple yet effective method that detects excessive belief deviation and truncates trajectories during training to remove uninformative tails. By preserving credit for informative prefixes, $\mathbf{T^3}$ systematically improves policy optimization. Across 5 challenging tasks, $\mathbf{T^3}$ consistently enhances training stability, token efficiency, and final performance, achieving up to 30% gains while cutting rollout tokens by roughly 25%. These results highlight belief control as a key principle for developing robust and generalizable LLM-based active reasoners.