Bounding Hallucinations: Information-Theoretic Guarantees for RAG Systems via Merlin-Arthur Protocols
作者: Björn Deiseroth, Max Henning Höth, Kristian Kersting, Letitia Parcalabescu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-12-12 (更新: 2026-01-30)
备注: 31 pages, 22 figures
💡 一句话要点
提出基于Merlin-Arthur协议的RAG训练框架,提升LLM在检索增强生成中的证据依赖性与信息理论保证。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 大型语言模型 Merlin-Arthur协议 对抗训练 可解释性AI 信息理论 幻觉抑制
📋 核心要点
- 现有RAG系统将检索视为启发式方法,缺乏对检索结果的验证,导致幻觉和对无关上下文的依赖。
- 该论文提出基于Merlin-Arthur协议的训练框架,通过对抗训练使LLM学会依赖真实证据,并在证据不足时拒绝回答。
- 实验表明,该方法能有效提升LLM的证据依赖性、信息理论指标,并减少幻觉,同时提升检索器的性能。
📝 摘要(中文)
检索增强生成(RAG)依赖于检索到的上下文来引导大型语言模型(LLM),但它将检索视为一种弱启发式方法,而非可验证的证据,这导致了无依据的答案、幻觉以及对虚假上下文的依赖。我们引入了一种新颖的训练框架,通过调整Merlin-Arthur (M/A)协议,将RAG流程视为一个交互式证明系统:Arthur(生成器LLM)在上下文来源未知的问题上进行训练,Merlin提供有用的证据,而Morgana注入对抗性的、误导性的上下文。两者都使用XAI方法来识别和修改对Arthur最具影响力的证据。这训练Arthur (1)在证据支持答案时回答,(2)在证据不足时拒绝,以及(3)依赖于真正支持答案的上下文跨度。我们进一步引入了一个验证框架,将解释的保真度与模型预测误差分离,并引入了解释信息分数(EIF),该分数规范化了M/A互信息保证。在三个RAG数据集和多个LLM系列和大小上,M/A训练使LLM更依赖于证据,增加了信息理论度量(可靠性、完整性)和拒绝行为,减少了幻觉,而无需手动标注的无法回答的样本。最后,检索器还通过自动生成的M/A硬正例和负例提高了召回率和MRR。虽然高准确率并不能保证从上下文到答案的熵流,但我们的EIF结果表明,自主的交互式证明风格监督使RAG系统能够将检索到的文档视为可验证的证据,而不是建议。
🔬 方法详解
问题定义:RAG系统在生成答案时,容易产生幻觉,即生成的内容与检索到的上下文不一致,或者依赖于不相关的上下文。现有的RAG方法通常将检索到的文档视为一种弱启发式信息,缺乏有效的机制来验证检索结果的可靠性,导致LLM生成不准确或无根据的答案。
核心思路:将RAG流程建模为一个交互式证明系统,借鉴Merlin-Arthur协议的思想。Arthur (LLM生成器) 负责根据上下文生成答案,Merlin (证据提供者) 提供支持答案的证据,而Morgana (对抗者) 则注入误导性信息。通过三者之间的博弈,训练Arthur学会区分真实证据和虚假信息,从而提高答案的可靠性。
技术框架:该框架包含三个主要模块:Arthur (生成器LLM)、Merlin (证据提供者) 和 Morgana (对抗者)。Arthur接收问题和上下文,生成答案。Merlin使用XAI方法识别对Arthur影响最大的证据,并提供支持性信息。Morgana同样使用XAI方法,但注入的是误导性信息。整个训练过程通过对抗学习,使Arthur能够区分真实证据和虚假信息。
关键创新:该论文的关键创新在于将Merlin-Arthur协议引入到RAG系统的训练中,并结合XAI方法来指导证据的生成和注入。这种交互式的训练方式能够有效地提高LLM对证据的依赖性,并减少幻觉的产生。此外,论文还提出了Explained Information Fraction (EIF) 指标,用于评估模型解释的保真度。
关键设计:Merlin和Morgana都使用XAI方法(具体方法未明确说明,原文只提到XAI方法)来识别对Arthur影响最大的上下文span,并进行修改。损失函数的设计目标是使Arthur在有充分证据支持时给出答案,在证据不足时拒绝回答。此外,通过自动生成hard positives和negatives来提升检索器的性能,具体生成方式未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于Merlin-Arthur协议的训练框架能够显著提升LLM在RAG任务中的性能。具体而言,该方法提高了信息理论指标(soundness, completeness),减少了幻觉,并提升了检索器的召回率和MRR。在多个数据集和LLM模型上的实验都验证了该方法的有效性,无需人工标注无法回答的样本。
🎯 应用场景
该研究成果可应用于各种需要可靠信息生成的场景,例如问答系统、知识库构建、报告生成等。通过提高RAG系统的证据依赖性和减少幻觉,可以提升生成内容的准确性和可信度,从而在医疗、金融等对信息准确性要求高的领域具有重要应用价值。未来,该方法有望进一步推广到其他生成式任务中。
📄 摘要(原文)
Retrieval-augmented generation (RAG) relies on retrieved context to guide large language models (LLM), yet treats retrieval as a weak heuristic rather than verifiable evidence -- leading to unsupported answers, hallucinations, and reliance on spurious context. We introduce a novel training framework that treats the RAG pipeline as an interactive proof system by adapting the Merlin-Arthur (M/A) protocol: Arthur (the generator LLM) trains on questions with unknown context provenance and Merlin gives helpful evidence, while Morgana injects adversarial, misleading context. Both use an XAI method to identify and modify evidence most influential to Arthur. This trains Arthur to (1) answer when evidence supports the answer, (2) reject when evidence is insufficient, and (3) rely on the context spans that truly ground the answer. We further introduce a verification framework that disentangles explanation fidelity from model predictive errors, and introduce the Explained Information Fraction (EIF), which normalizes M/A mutual-information guarantees. Across three RAG datasets and multiple LLM families and sizes, M/A training makes LLMs more grounded in evidence, increases information theoretic measures (soundness, completeness) and reject behavior with less hallucinations, without manually annotated unanswerable samples. Finally, the retriever also improves recall and MRR via automatically generated M/A hard positives and negatives. While high accuracy does not guarantee entropy flow from context to answer, our EIF results show that autonomous interactive-proof-style supervision enables RAG systems that treat retrieved documents as verifiable evidence. % rather than suggestions.