Pause or Fabricate? Training Language Models for Grounded Reasoning

作者: Yiwen Qiu, Linjuan Wu, Yizhou Liu, Yuchen Yan, Jin Ma, Xu Tan, Yao Hu, Daoxin Zhang, Wenqi Zhang, Weiming Lu, Jun Xiao, Yongliang Shen

分类: cs.CL

发布日期: 2026-04-21

备注: Code:https://github.com/ZJU-REAL/GRIL

💡 一句话要点

提出GRIL框架，解决大语言模型在不完备信息下的无根据推理问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 强化学习 推理 信息不完备 幻觉 根据推理 交互式学习

📋 核心要点

现有大语言模型在信息不完备时易产生幻觉，导致无根据推理，影响可靠性。
GRIL框架通过交互式强化学习，分解推理过程为澄清暂停和根据推理两个阶段。
实验表明，GRIL显著提升前提检测能力，提高任务成功率并缩短响应长度。

📝 摘要（中文）

大型语言模型在复杂推理任务中取得了显著进展。然而，当输入信息不完整时，它们常常会隐式地捏造信息，从而产生自信但不可靠的结论——我们称之为无根据推理。我们认为这个问题并非源于推理能力不足，而是缺乏推理边界意识——即识别有效推理所需的前提缺失的能力。为了解决这个问题，我们提出了基于交互式强化学习的根据推理（GRIL），这是一个用于在不完整信息下进行根据推理的多轮强化学习框架。GRIL将推理过程分解为两个阶段：澄清和暂停，用于识别可用信息是否充分；以及根据推理，用于在必要的前提建立后执行任务求解。我们设计了特定于阶段的奖励来惩罚幻觉，使模型能够检测差距，主动停止，并在澄清后恢复推理。在GSM8K-Insufficient和MetaMATH-Insufficient上的实验表明，GRIL显著提高了前提检测（高达45%），从而使任务成功率提高了30%，同时平均响应长度减少了20%以上。额外的分析证实了对噪声用户响应的鲁棒性和对分布外任务的泛化能力。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在信息不完备的情况下进行推理时，容易出现“无根据推理”的问题。现有方法在面对不完整信息时，往往会捏造信息，导致推理结果不可靠。这种问题并非模型推理能力不足，而是缺乏识别推理边界的意识，即无法判断当前信息是否足以支持有效的推理。

核心思路：论文的核心思路是将推理过程分解为两个阶段：首先是“澄清和暂停”阶段，模型判断当前信息是否足以进行推理，如果不足则主动停止并请求补充信息；其次是“根据推理”阶段，在获得足够信息后，模型再进行任务求解。通过这种方式，模型可以避免在信息不足的情况下进行不准确的推理。

技术框架：GRIL框架是一个多轮交互式的强化学习框架。它包含两个主要阶段：1) 澄清和暂停阶段：模型接收输入信息，并判断是否需要更多信息。如果需要，模型会生成一个问题来请求补充信息。2) 根据推理阶段：当模型认为已经拥有足够的信息时，它会执行任务求解。这两个阶段通过强化学习进行训练，目标是最大化任务成功率，同时最小化不必要的提问。

关键创新：GRIL的关键创新在于引入了“澄清和暂停”机制，使模型能够主动识别信息不足的情况，并避免在信息不完备的情况下进行推理。这种机制使得模型能够更加可靠地进行推理，并且能够更好地适应不完整的信息环境。与现有方法相比，GRIL不是简单地依赖模型自身的知识进行推理，而是通过与环境交互来获取必要的信息。

关键设计：GRIL框架使用强化学习进行训练，设计了特定于阶段的奖励函数。对于“澄清和暂停”阶段，奖励函数会惩罚模型在信息不足的情况下进行推理，并鼓励模型主动请求补充信息。对于“根据推理”阶段，奖励函数会奖励模型成功完成任务，并惩罚模型捏造信息。具体的网络结构和参数设置在论文中进行了详细描述，包括如何将语言模型与强化学习算法相结合，以及如何设计合适的奖励函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GRIL框架在GSM8K-Insufficient和MetaMATH-Insufficient数据集上显著提高了前提检测能力（高达45%），任务成功率提高了30%，同时平均响应长度减少了20%以上。这些结果表明，GRIL框架能够有效地解决大语言模型在不完备信息下的无根据推理问题。

🎯 应用场景

GRIL框架可应用于需要可靠推理的各种场景，例如问答系统、智能客服、决策支持系统等。通过提高模型在信息不完备情况下的推理能力，可以提升系统的准确性和可靠性，减少错误信息的传播。该研究对于构建更加可信赖的人工智能系统具有重要意义。

📄 摘要（原文）

Large language models have achieved remarkable progress on complex reasoning tasks. However, they often implicitly fabricate information when inputs are incomplete, producing confident but unreliable conclusions -- a failure mode we term ungrounded reasoning. We argue that this issue arises not from insufficient reasoning capability, but from the lack of inferential boundary awareness -- the ability to recognize when the necessary premises for valid inference are missing. To address this issue, we propose Grounded Reasoning via Interactive Reinforcement Learning (GRIL), a multi-turn reinforcement learning framework for grounded reasoning under incomplete information. GRIL decomposes the reasoning process into two stages: clarify and pause, which identifies whether the available information is sufficient, and grounded reasoning, which performs task solving once the necessary premises are established. We design stage-specific rewards to penalize hallucinations, enabling models to detect gaps, stop proactively, and resume reasoning after clarification. Experiments on GSM8K-Insufficient and MetaMATH-Insufficient show that GRIL significantly improves premise detection (up to 45%), leading to a 30% increase in task success while reducing average response length by over 20%. Additional analyses confirm robustness to noisy user responses and generalization to out-of-distribution tasks.

Pause or Fabricate? Training Language Models for Grounded Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理