From Facts to Conclusions : Integrating Deductive Reasoning in Retrieval-Augmented LLMs
作者: Shubham Mishra, Samyek Jain, Gorang Mehrishi, Shiv Tiwari, Harsh Sharma, Pratik Narang, Dhruv Kumar
分类: cs.CL, cs.AI, cs.CY, cs.IR
发布日期: 2025-12-18
备注: Under Review
💡 一句话要点
提出推理追踪增强的RAG框架,解决检索信息冲突和主观性问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 推理追踪 冲突分析 可解释性 大型语言模型
📋 核心要点
- 现有RAG方法在处理冲突、过时或主观信息时表现不佳,缺乏统一的推理监督。
- 提出推理追踪增强的RAG框架,通过文档裁决、冲突分析和证据综合实现可解释的推理。
- 实验表明,该框架在Qwen模型上显著提升了答案正确率和行为依从性。
📝 摘要(中文)
检索增强生成(RAG)将大型语言模型(LLM)与外部证据相结合,但当检索到的来源相互冲突或包含过时或主观信息时,RAG会失效。先前的工作分别解决了这些问题,但缺乏统一的推理监督。我们提出了一个推理追踪增强的RAG框架,该框架在三个阶段添加了结构化的、可解释的推理:(1)文档级别的裁决,(2)冲突分析,以及(3)基于证据的综合,产生带有引用的答案或合理的拒绝。引入了一个冲突感知信任评分(CATS)流程,该流程使用LLM-as-a-Judge评估了基于证据性、事实正确性、拒绝准确性和冲突行为一致性。我们的539个查询推理数据集和评估流程为冲突感知、可解释的RAG系统奠定了基础。实验结果表明,与基线相比有显著的提升,尤其是在Qwen上,监督微调将端到端的答案正确率从0.069提高到0.883,行为依从性从0.074提高到0.722。
🔬 方法详解
问题定义:现有RAG模型在面对检索到的信息存在冲突、过时或主观性时,无法有效判断和整合信息,导致生成错误或不可靠的答案。缺乏对推理过程的监督,使得模型难以解释其决策过程,也难以进行调试和改进。
核心思路:通过引入结构化的推理过程,显式地对检索到的文档进行裁决、分析冲突,并进行基于证据的综合,从而提高RAG模型的准确性和可解释性。核心在于将推理过程分解为多个可控的步骤,并对每个步骤进行监督和评估。
技术框架:该框架包含三个主要阶段:1) 文档级别裁决:对检索到的文档进行评估,判断其可信度和相关性;2) 冲突分析:识别文档之间的冲突信息,并分析冲突的原因;3) 基于证据的综合:根据裁决和冲突分析的结果,综合各个文档的信息,生成带有引用的答案或合理的拒绝。整个流程使用LLM作为裁判(LLM-as-a-Judge)进行评估。
关键创新:引入了推理追踪增强,将复杂的推理过程分解为多个可解释的步骤,并对每个步骤进行监督。提出了冲突感知信任评分(CATS)流程,用于评估RAG模型的 groundedness, factual correctness, refusal accuracy, 和 conflict-behavior alignment。
关键设计:使用LLM作为裁判(LLM-as-a-Judge)来评估各个阶段的输出,并根据评估结果进行调整。构建了一个包含539个查询的推理数据集,用于训练和评估模型。通过监督微调(Supervised Fine-Tuning)来优化模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在Qwen模型上取得了显著的性能提升。通过监督微调,端到端的答案正确率从0.069提高到0.883,行为依从性从0.074提高到0.722。这些结果表明,该框架能够有效地解决检索信息冲突和主观性问题,并提高RAG模型的可靠性。
🎯 应用场景
该研究成果可应用于需要高度准确性和可信度的知识密集型任务,例如医疗诊断、法律咨询、金融分析等。通过提供可解释的推理过程,可以提高用户对模型输出的信任度,并促进人机协作。未来可进一步探索如何将该框架应用于更复杂的推理场景,并提高模型的泛化能力。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) grounds large language models (LLMs) in external evidence, but fails when retrieved sources conflict or contain outdated or subjective information. Prior work address these issues independently but lack unified reasoning supervision. We propose a reasoning-trace-augmented RAG framework that adds structured, interpretable reasoning across three stages : (1) document-level adjudication, (2) conflict analysis, and (3) grounded synthesis, producing citation-linked answers or justified refusals. A Conflict-Aware Trust-Score (CATS) pipeline is introduced which evaluates groundedness, factual correctness, refusal accuracy, and conflict-behavior alignment using an LLM-as-a-Judge. Our 539-query reasoning dataset and evaluation pipeline establish a foundation for conflict-aware, interpretable RAG systems. Experimental results demonstrate substantial gains over baselines, most notably with Qwen, where Supervised Fine-Tuning improved End-to-End answer correctness from 0.069 to 0.883 and behavioral adherence from 0.074 to 0.722.