GRACE: Reinforcement Learning for Grounded Response and Abstention under Contextual Evidence

📄 arXiv: 2601.04525v1 📥 PDF

作者: Yibo Zhao, Jiapeng Zhu, Zichen Ding, Xiang Li

分类: cs.CL

发布日期: 2026-01-08

备注: 18 pages

🔗 代码/项目: GITHUB


💡 一句话要点

GRACE:基于上下文证据,用于可信回复与拒绝的强化学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 强化学习 证据 grounding 可靠拒绝 异构检索 多阶段奖励 大型语言模型

📋 核心要点

  1. 现有检索增强生成模型缺乏统一框架,无法同时保证回复的证据充分性和信息不足时的可靠拒绝。
  2. GRACE 提出利用强化学习,通过异构检索器构建多样化训练样本,并设计多阶段门控奖励函数。
  3. 实验表明,GRACE 在准确率和拒绝平衡上达到 SOTA,且标注成本仅为先前方法的 10%。

📝 摘要(中文)

检索增强生成(RAG)通过整合外部知识来增强大型语言模型(LLM)的能力,但现有系统仍然容易出现两个关键缺陷:在没有明确的证据支持下提供正确的答案,以及在检索到的上下文信息不足时产生虚假的回应。虽然之前的研究已经分别解决了这些问题,但目前缺乏一个统一的框架,能够整合基于证据的 grounding 和可靠的拒绝机制。本文提出了 GRACE,一个强化学习框架,可以同时缓解这两种类型的缺陷。GRACE 采用了一种数据构建方法,该方法利用异构检索器生成多样化的训练样本,无需手动标注。然后,采用多阶段门控奖励函数来训练模型,使其能够评估证据的充分性,提取关键的支持性证据,并提供答案或明确拒绝回答。在两个基准数据集上的实验结果表明,GRACE 实现了最先进的整体准确率,并在准确回复和拒绝之间取得了良好的平衡,同时仅需先前方法 10% 的标注成本。代码已开源。

🔬 方法详解

问题定义:现有检索增强生成模型在生成答案时,可能存在两个问题:一是即使答案正确,也缺乏明确的证据支持;二是当检索到的上下文信息不足时,模型可能会生成虚假信息。这两种情况都会降低用户对模型的信任度。现有方法通常独立解决这两个问题,缺乏一个统一的框架。

核心思路:GRACE 的核心思路是利用强化学习,训练模型同时具备基于证据的回复能力和信息不足时的拒绝能力。通过异构检索器生成多样化的训练数据,并设计一个多阶段门控奖励函数,引导模型学习评估证据充分性、提取关键证据以及选择回复或拒绝。

技术框架:GRACE 的整体框架包含以下几个主要模块:1) 数据构建模块:利用异构检索器(例如基于关键词的检索器和基于语义的检索器)从外部知识库中检索相关信息,构建多样化的训练样本。2) 证据评估模块:模型评估检索到的证据是否足以支持生成答案。3) 答案生成/拒绝模块:如果证据充分,则生成答案并提取关键证据;否则,选择拒绝回答。4) 强化学习训练模块:使用多阶段门控奖励函数训练模型,优化证据评估、答案生成和拒绝策略。

关键创新:GRACE 的关键创新在于:1) 提出了一个统一的强化学习框架,可以同时解决证据不足和信息虚假的问题。2) 设计了一种新的数据构建方法,利用异构检索器生成多样化的训练样本,无需手动标注,降低了训练成本。3) 提出了一个多阶段门控奖励函数,可以更有效地引导模型学习证据评估、答案生成和拒绝策略。

关键设计:GRACE 的关键设计包括:1) 异构检索器的选择:选择不同类型的检索器可以增加训练数据的多样性。2) 多阶段门控奖励函数的设计:奖励函数分为多个阶段,分别针对证据评估、答案生成和拒绝行为进行奖励或惩罚。门控机制用于控制不同阶段奖励的影响。3) 强化学习算法的选择:可以使用常见的强化学习算法,例如 PPO 或 DQN。

📊 实验亮点

GRACE 在两个基准数据集上取得了最先进的整体准确率,并在准确回复和拒绝之间取得了良好的平衡。更重要的是,GRACE 仅需先前方法 10% 的标注成本,大大降低了训练成本。这表明 GRACE 在保证性能的同时,也具有很高的效率和实用性。

🎯 应用场景

GRACE 可应用于各种需要可信回复和可靠拒绝的场景,例如问答系统、对话系统、医疗诊断辅助系统等。通过确保回复的证据充分性和信息不足时的拒绝,可以提高用户对系统的信任度,并减少错误信息带来的潜在风险。该研究对于提升大型语言模型在实际应用中的可靠性和安全性具有重要意义。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) integrates external knowledge to enhance Large Language Models (LLMs), yet systems remain susceptible to two critical flaws: providing correct answers without explicit grounded evidence and producing fabricated responses when the retrieved context is insufficient. While prior research has addressed these issues independently, a unified framework that integrates evidence-based grounding and reliable abstention is currently lacking. In this paper, we propose GRACE, a reinforcement-learning framework that simultaneously mitigates both types of flaws. GRACE employs a data construction method that utilizes heterogeneous retrievers to generate diverse training samples without manual annotation. A multi-stage gated reward function is then employed to train the model to assess evidence sufficiency, extract key supporting evidence, and provide answers or explicitly abstain. Experimental results on two benchmarks demonstrate that GRACE achieves state-of-the-art overall accuracy and strikes a favorable balance between accurate response and rejection, while requiring only 10% of the annotation costs of prior methods. Our code is available at https://github.com/YiboZhao624/Grace..