On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

📄 arXiv: 2603.12109v1 📥 PDF

作者: Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng

分类: cs.AI

发布日期: 2026-03-12


💡 一句话要点

针对LLM智能体主动推理中的信息自锁问题,提出定向评价方法。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 主动推理 信息自锁 定向评价

📋 核心要点

  1. 现有基于强化学习的LLM智能体在主动推理中存在信息自锁问题,即停止提问有效信息,难以利用已有信息。
  2. 论文提出一种定向评价方法,通过注入易于获得的评价信号,重新分配学习信号,从而帮助智能体摆脱信息自锁。
  3. 实验结果表明,该方法在多个数据集上显著缓解了信息自锁问题,性能提升高达60%。

📝 摘要(中文)

本文研究了基于强化学习(RL)训练的大型语言模型(LLM)智能体在主动推理中出现的信息自锁现象。在主动推理中,智能体需要策略性地提问以获取任务相关信息。研究发现,RL训练的LLM智能体常常停止提问有效信息,难以消化已获得的信息。为了理解这一现象,我们将主动推理分解为行动选择(AS)和信念追踪(BT)两个核心能力。研究表明,AS和BT能力的不足会限制RL训练期间的信息探索。反过来,探索不足又会阻碍AS和BT的改进,形成一个将智能体锁定在低信息状态的反馈循环。为了解决这个问题,我们提出了一种简单而有效的方法,通过注入易于获得的定向评价来重新分配学习信号,帮助智能体摆脱自锁。在7个数据集上的大量实验表明,我们的方法显著缓解了信息自锁,带来了高达60%的性能提升。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)智能体在主动推理任务中,使用强化学习(RL)训练时出现的“信息自锁”问题。具体来说,智能体在需要通过提问来获取信息时,会陷入停止提问有效问题,并且无法有效利用已获得信息的困境。现有方法缺乏对智能体探索行为的有效引导,导致智能体无法充分学习到行动选择(AS)和信念追踪(BT)的能力,从而陷入局部最优。

核心思路:论文的核心思路是通过外部干预,打破智能体的信息自锁状态。具体而言,通过提供易于获得的、具有方向性的评价信号,来引导智能体进行更有效的探索。这种评价信号可以帮助智能体更好地理解哪些问题是重要的,以及如何更好地利用已获得的信息,从而跳出局部最优解。

技术框架:整体框架可以概括为:首先,智能体与环境交互,通过提问获取信息;然后,智能体根据已获得的信息更新信念状态;接着,根据信念状态选择下一个行动(提问或回答);最后,环境给出奖励信号。与传统RL不同的是,论文提出的方法在奖励信号之外,额外注入定向评价信号,用于指导智能体的行动选择和信念追踪。

关键创新:论文的关键创新在于提出了定向评价(Directional Critiques)的概念,并将其应用于缓解LLM智能体的信息自锁问题。与传统的稀疏奖励信号相比,定向评价能够提供更及时、更具体的反馈,从而更有效地引导智能体进行探索。这种方法不需要复杂的模型设计或额外的训练数据,易于实现且效果显著。

关键设计:定向评价的设计是关键。论文中,定向评价是基于对智能体行为的简单分析而生成的,例如,如果智能体提出的问题与任务目标相关性较低,则给予负向评价;如果智能体能够有效利用已获得的信息进行推理,则给予正向评价。这些评价信号可以以额外的奖励或惩罚的形式添加到RL的奖励函数中,从而影响智能体的学习过程。具体的评价信号强度和频率需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的定向评价方法在7个数据集上均取得了显著的性能提升,最高提升幅度达到60%。与传统的RL训练方法相比,该方法能够更有效地缓解信息自锁问题,使智能体能够更好地探索信息空间,并做出更明智的决策。这些结果验证了该方法的有效性和实用性。

🎯 应用场景

该研究成果可应用于各种需要智能体进行主动信息获取和推理的场景,例如智能客服、医疗诊断、金融风险评估等。通过缓解信息自锁问题,可以提高智能体的决策质量和效率,使其更好地完成复杂任务。未来,该方法有望推广到更广泛的LLM应用领域,提升LLM智能体的通用性和可靠性。

📄 摘要(原文)

Reinforcement learning (RL) with outcome-based rewards has achieved significant success in training large language model (LLM) agents for complex reasoning tasks. However, in active reasoning where agents need to strategically ask questions to acquire task-relevant information, we find that LLM agents trained with RL often suffer from information self-locking: the agent ceases to ask informative questions and struggles to internalize already-obtained information. To understand the phenomenon, we decompose active reasoning into two core capabilities: Action Selection (AS), which determines the observation stream through queries, and Belief Tracking (BT), which updates the agent's belief based on collected evidence. We show that deficient AS and BT capabilities will limit the information exploration during RL training. Furthermore, insufficient exploration in turn hinders the improvement of AS and BT, creating a feedback loop that locks the agent in a low-information regime. To resolve the issue, we propose a simple yet effective approach that reallocates the learning signal by injecting easy- to-obtain directional critiques to help the agent escape self-locking. Extensive experiments with 7 datasets show that our approach significantly mitigates the information self-locking, bringing up to 60% improvements.