Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization

📄 arXiv: 2504.14858v4 📥 PDF

作者: Jiaqi Wei, Hao Zhou, Xiang Zhang, Di Zhang, Zijie Qiu, Wei Wei, Jinzhe Li, Wanli Ouyang, Siqi Sun

分类: cs.AI, cs.CL

发布日期: 2025-04-21 (更新: 2025-10-11)

备注: Accepted by NeurIPS 2025


💡 一句话要点

提出AlignRAG框架,通过测试时评判与优化增强RAG推理对齐性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 推理对齐 评判驱动对齐 对比学习 迭代优化 知识驱动 RAG

📋 核心要点

  1. 现有RAG方法难以保证模型推理与检索证据一致,导致事实错误或结论缺乏支持,即推理不对齐问题。
  2. AlignRAG框架通过迭代的评判驱动对齐,训练检索增强的评判语言模型,生成检索敏感的对比评判,优化推理过程。
  3. 实验表明,AlignRAG显著提升推理保真度,8B参数模型优于Self-Refine基线12.1%,甚至超越72B参数模型。

📝 摘要(中文)

检索增强生成(RAG)已成为赋能知识驱动的大型语言模型(LLM)的常用范例。然而,标准的RAG流程通常无法确保模型推理与检索到的证据保持一致,导致事实不一致或结论缺乏支持。本文将RAG重新定义为检索增强推理,并识别出一个核心但未被充分探索的问题:推理不对齐——LLM的内部推理轨迹与检索提供的证据约束之间的差异。为了解决这个问题,我们提出了AlignRAG,这是一个基于评判驱动对齐(CDA)的新型迭代框架。我们进一步引入了AlignRAG-auto,这是一个自主变体,可以动态地终止细化,从而无需预先指定评判迭代的次数。AlignRAG的核心是一种对比评判合成机制,该机制在减轻自我偏见的同时生成检索敏感的评判。该机制使用标记的评判来训练一个专用的检索增强评判语言模型(CLM),这些评判区分了证据对齐和未对齐的推理。经验评估表明,我们的方法显著提高了推理保真度。我们的8B参数CLM在领域外任务上的性能比Self-Refine基线提高了12.1%,并且优于标准的72B参数CLM 2.2%。此外,AlignRAG-auto在动态确定最佳细化步骤数的同时实现了最先进的性能,从而提高了效率和可用性。AlignRAG作为一个即插即用模块,与现有的RAG架构保持兼容,并在信息丰富和噪声检索场景下都表现出强大的鲁棒性。

🔬 方法详解

问题定义:现有RAG方法在推理过程中,无法有效利用检索到的证据,导致模型产生与证据不一致的结论,即推理不对齐问题。现有方法缺乏有效的机制来评估和纠正推理过程中的偏差,容易受到噪声信息的影响。

核心思路:AlignRAG的核心思路是通过迭代的评判和优化,使模型的推理过程与检索到的证据对齐。通过训练一个专门的评判语言模型(CLM),来识别和纠正推理过程中的错误,从而提高推理的保真度。这种方法借鉴了对比学习的思想,通过区分证据对齐和未对齐的推理,来提高CLM的判别能力。

技术框架:AlignRAG包含以下主要模块:1)检索模块:从知识库中检索相关文档。2)推理模块:利用LLM进行推理,生成初始答案。3)评判模块:使用CLM对推理过程进行评判,生成对比评判。4)优化模块:根据评判结果,对推理过程进行优化,生成更准确的答案。AlignRAG-auto在此基础上增加了动态终止机制,自动确定最佳迭代次数。

关键创新:AlignRAG的关键创新在于对比评判合成机制和迭代优化框架。对比评判合成机制通过区分证据对齐和未对齐的推理,训练出更有效的CLM。迭代优化框架通过不断地评判和优化,逐步提高推理的保真度。AlignRAG-auto的动态终止机制进一步提高了效率和可用性。

关键设计:CLM使用检索增强的方式进行训练,输入包括问题、检索到的文档和推理过程。损失函数采用对比损失,鼓励CLM区分证据对齐和未对齐的推理。AlignRAG-auto使用一个额外的预测器来预测推理质量,并根据预测结果动态终止迭代。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AlignRAG在多个数据集上取得了显著的性能提升。在领域外任务上,8B参数的CLM比Self-Refine基线提高了12.1%,并且超过了72B参数的标准CLM 2.2%。AlignRAG-auto能够动态确定最佳迭代次数,在保证性能的同时提高了效率。实验还表明,AlignRAG在噪声检索场景下具有很强的鲁棒性。

🎯 应用场景

AlignRAG可应用于各种需要知识驱动的LLM应用场景,例如问答系统、对话系统、信息检索等。该方法可以提高LLM的推理准确性和可靠性,减少事实错误和幻觉问题。在医疗、金融等对准确性要求高的领域,AlignRAG具有重要的应用价值。

📄 摘要(原文)

Retrieval-augmented generation (RAG) has become a widely adopted paradigm for enabling knowledge-grounded large language models (LLMs). However, standard RAG pipelines often fail to ensure that model reasoning remains consistent with the evidence retrieved, leading to factual inconsistencies or unsupported conclusions. In this work, we reinterpret RAG as Retrieval-Augmented Reasoning and identify a central but underexplored problem: Reasoning Misalignment -- the divergence between an LLM's internal reasoning trajectory and the evidential constraints provided by retrieval. To address this issue, we propose AlignRAG, a novel iterative framework grounded in Critique-Driven Alignment (CDA). We further introduce AlignRAG-auto, an autonomous variant that dynamically terminates refinement, removing the need to pre-specify the number of critique iterations. At the heart of AlignRAG lies a contrastive critique synthesis mechanism that generates retrieval-sensitive critiques while mitigating self-bias. This mechanism trains a dedicated retrieval-augmented Critic Language Model (CLM) using labeled critiques that distinguish between evidence-aligned and misaligned reasoning. Empirical evaluations show that our approach significantly improves reasoning fidelity. Our 8B-parameter CLM improves performance over the Self-Refine baseline by 12.1% on out-of-domain tasks and outperforms a standard 72B-parameter CLM by 2.2%. Furthermore, AlignRAG-auto achieves this state-of-the-art performance while dynamically determining the optimal number of refinement steps, enhancing efficiency and usability. AlignRAG remains compatible with existing RAG architectures as a plug-and-play module and demonstrates strong robustness under both informative and noisy retrieval scenarios.