Guaranteeing Knowledge Integration with Joint Decoding for Retrieval-Augmented Generation

📄 arXiv: 2604.08046v1 📥 PDF

作者: Zhengyi Zhao, Shubo Zhang, Zezhong Wang, Yuxi Zhang, Huimin Wang, Yutian Zhao, Yefeng Zheng, Binyang Li, Kam-Fai Wong, Xian Wu

分类: cs.CL

发布日期: 2026-04-09

备注: Accepted by ACL'26


💡 一句话要点

GuarantRAG:通过联合解码保证知识整合的检索增强生成框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 知识整合 大型语言模型 对比学习 联合解码 问答系统 幻觉抑制

📋 核心要点

  1. 现有RAG方法在知识整合方面存在瓶颈,即使检索到相关文档,LLM也难以有效利用,易受内部知识干扰。
  2. GuarantRAG框架显式解耦推理和证据整合,先生成基于内部知识的答案,再生成基于检索证据的答案。
  3. 实验结果表明,GuarantRAG在多个QA基准测试中显著提升了准确率,并有效降低了幻觉现象。

📝 摘要(中文)

检索增强生成(RAG)通过提供对外部知识的访问,显著增强了大型语言模型(LLM)。然而,当前的研究主要集中在检索质量上,常常忽略了关键的“整合瓶颈”:即使检索到相关的文档,由于与LLM内部参数化知识的冲突,LLM也常常无法有效地利用它们。本文认为,在单个生成过程中隐式地解决这种冲突并非最优。我们提出了GuarantRAG,一个将推理与证据整合显式解耦的框架。首先,我们仅基于参数化知识生成一个“内部答案”,以捕捉模型的推理流程。其次,为了保证忠实的证据提取,我们使用一种新颖的对比DPO目标生成一个“参考答案”。该目标将参数化的内部答案视为负约束,并将检索到的文档视为正向ground truth,从而迫使模型在此阶段抑制内部幻觉,转而支持外部证据。最后,我们提出了一种联合解码机制,而不是简单的拼接或直接使用DPO训练的模型,该机制在token级别动态地融合内部答案的逻辑连贯性与参考答案的事实精确性。在五个QA基准上的实验表明,与标准和动态RAG基线相比,GuarantRAG的准确率提高了高达12.1%,幻觉减少了16.3%。

🔬 方法详解

问题定义:现有检索增强生成(RAG)方法,即使检索到相关文档,大型语言模型(LLM)也经常无法有效利用这些信息,因为LLM的内部参数化知识可能与检索到的外部知识相冲突,导致知识整合失败,产生幻觉。现有方法试图隐式地在单次生成过程中解决这种冲突,效果不佳。

核心思路:GuarantRAG的核心思路是将推理过程和证据整合过程显式地解耦。首先,让LLM基于其内部参数化知识生成一个“内部答案”,捕捉其固有的推理流程。然后,利用检索到的外部知识生成一个“参考答案”,并强制模型优先使用外部证据,抑制内部知识可能导致的幻觉。最后,通过联合解码机制,动态地融合这两个答案的优点。

技术框架:GuarantRAG框架包含三个主要阶段:1) 内部答案生成:仅使用LLM的参数化知识生成答案。2) 参考答案生成:使用检索到的文档,并通过对比DPO目标函数,强制模型生成基于外部证据的答案,抑制内部知识的干扰。3) 联合解码:设计一种联合解码机制,在token级别动态地融合内部答案的逻辑连贯性和参考答案的事实精确性。

关键创新:GuarantRAG的关键创新在于显式地解耦了推理和证据整合,并引入了对比DPO目标函数和联合解码机制。与现有RAG方法相比,GuarantRAG不再试图在单次生成中隐式地解决知识冲突,而是通过分阶段的方式,分别利用内部知识和外部知识,并最终融合它们的优点。

关键设计:对比DPO目标函数将内部答案视为负样本,检索到的文档视为正样本,通过优化该目标函数,可以训练模型生成更忠实于外部证据的参考答案。联合解码机制通过动态地调整内部答案和参考答案的权重,在token级别融合它们的优点。具体的权重调整策略可能涉及注意力机制或其他动态融合方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在五个QA基准测试中,GuarantRAG框架相比于标准和动态RAG基线,准确率提升高达12.1%,幻觉减少了16.3%。这些结果表明,GuarantRAG能够有效地整合外部知识,并显著提高LLM的性能。

🎯 应用场景

GuarantRAG框架可应用于各种需要知识整合的自然语言处理任务,例如问答系统、知识图谱构建、文本摘要等。该方法能够提高LLM在这些任务中的准确性和可靠性,减少幻觉现象,从而提升用户体验和应用价值。未来,该框架可以进一步扩展到其他模态的数据,例如图像和视频,以实现更强大的多模态知识整合能力。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) significantly enhances Large Language Models (LLMs) by providing access to external knowledge. However, current research primarily focuses on retrieval quality, often overlooking the critical ''integration bottleneck'': even when relevant documents are retrieved, LLMs frequently fail to utilize them effectively due to conflicts with their internal parametric knowledge. In this paper, we argue that implicitly resolving this conflict in a single generation pass is suboptimal. We introduce GuarantRAG, a framework that explicitly decouples reasoning from evidence integration. First, we generate an ''Inner-Answer'' based solely on parametric knowledge to capture the model's reasoning flow. Second, to guarantee faithful evidence extraction, we generate a ''Refer-Answer'' using a novel Contrastive DPO objective. This objective treats the parametric Inner-Answer as a negative constraint and the retrieved documents as positive ground truth, forcing the model to suppress internal hallucinations in favor of external evidence during this phase. Finally, rather than naive concatenation or using the DPO trained model directly, we propose a joint decoding mechanism that dynamically fuses the logical coherence of the Inner-Answer with the factual precision of the Refer-Answer at the token level. Experiments on five QA benchmarks demonstrate that GuarantRAG improves accuracy by up to 12.1% and reduces hallucinations by 16.3% compared to standard and dynamic RAG baselines.