ArbGraph: Conflict-Aware Evidence Arbitration for Reliable Long-Form Retrieval-Augmented Generation

📄 arXiv: 2604.18362v1 📥 PDF

作者: Qingying Niu, Yuhao Wang, Ruiyang Ren, Bohui Fang, Wayne Xin Zhao

分类: cs.CL, cs.IR

发布日期: 2026-04-20

备注: 23 pages, 4 figures

🔗 代码/项目: GITHUB


💡 一句话要点

ArbGraph:面向长文本RAG,提出冲突感知的证据仲裁框架,提升生成可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 长文本生成 证据仲裁 事实一致性 冲突解决 知识图谱 可信度传播

📋 核心要点

  1. 长文本RAG面临证据噪声和矛盾问题,现有方法在生成阶段解决冲突,导致事实一致性难以保证。
  2. ArbGraph构建冲突感知的证据图,通过迭代仲裁机制传播可信度信号,抑制不可靠声明。
  3. 实验表明,ArbGraph在LongFact和RAGChecker上提高了事实召回率和信息密度,减少了幻觉。

📝 摘要(中文)

检索增强生成(RAG)在长文本场景中仍然不可靠,因为检索到的证据可能存在噪声或矛盾,使得RAG流程难以维持事实一致性。现有方法侧重于检索扩展或生成过程中的验证,将冲突解决与生成过程纠缠在一起。为了解决这一局限性,我们提出了ArbGraph,一个用于长文本RAG中预生成证据仲裁的框架,它显式地解决事实冲突。ArbGraph将检索到的文档分解为原子声明,并将它们组织成一个冲突感知的证据图,其中包含显式的支持和矛盾关系。在此图的基础上,我们引入了一种强度驱动的迭代仲裁机制,该机制通过证据交互传播可信度信号,使系统能够在最终生成之前抑制不可靠和不一致的声明。通过这种方式,ArbGraph将证据验证与文本生成分离,并为下游长文本生成提供连贯的证据基础。我们在两个广泛使用的长文本RAG基准测试LongFact和RAGChecker上,使用多个大型语言模型作为backbone来评估ArbGraph。实验结果表明,ArbGraph持续提高了事实召回率和信息密度,同时减少了幻觉和对检索噪声的敏感性。额外的分析表明,这些增益在存在冲突或模糊证据的情况下尤为明显,突出了证据级冲突解决对于提高长文本RAG可靠性的有效性。

🔬 方法详解

问题定义:长文本RAG系统容易受到检索到的证据中存在的噪声和矛盾信息的影响,导致生成的内容出现事实错误或不一致。现有的方法通常在生成阶段进行验证或修正,但这种方式将冲突解决与生成过程耦合在一起,难以有效地处理证据层面的冲突。因此,需要一种在生成之前对证据进行仲裁的方法,以提供更可靠的证据基础。

核心思路:ArbGraph的核心思路是将检索到的文档分解为原子声明,并构建一个冲突感知的证据图,其中节点代表声明,边代表声明之间的支持或矛盾关系。然后,通过迭代仲裁机制,根据声明之间的关系和初始可信度,传播可信度信号,从而抑制不可靠和不一致的声明。这样,就可以在生成之前过滤掉噪声证据,为生成过程提供更可靠的输入。

技术框架:ArbGraph的整体框架包括以下几个主要步骤:1) 声明提取:将检索到的文档分解为原子声明。2) 关系推断:识别声明之间的支持和矛盾关系,构建冲突感知的证据图。3) 迭代仲裁:通过迭代的方式,根据声明之间的关系和初始可信度,传播可信度信号,更新每个声明的可信度得分。4) 证据选择:根据可信度得分选择最终用于生成的证据。5) 长文本生成:使用选择的证据生成最终的文本。

关键创新:ArbGraph的关键创新在于其预生成证据仲裁机制,它将证据验证与文本生成分离,并在生成之前显式地解决事实冲突。与现有方法相比,ArbGraph能够更有效地处理证据层面的冲突,并为生成过程提供更可靠的证据基础。此外,ArbGraph提出的强度驱动的迭代仲裁机制能够有效地传播可信度信号,从而抑制不可靠和不一致的声明。

关键设计:ArbGraph的关键设计包括:1) 声明提取方法:可以使用现有的声明提取模型或规则进行声明提取。2) 关系推断方法:可以使用现有的关系推断模型或规则进行关系推断。3) 迭代仲裁机制:该机制通过迭代的方式更新每个声明的可信度得分,直到收敛。可信度得分的更新公式需要仔细设计,以保证能够有效地传播可信度信号。4) 证据选择策略:根据可信度得分选择最终用于生成的证据。可以选择可信度得分最高的若干个声明,或者使用阈值过滤掉可信度得分低于阈值的声明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在LongFact和RAGChecker两个基准测试中,ArbGraph consistently提高了事实召回率和信息密度,同时减少了幻觉和对检索噪声的敏感性。例如,在LongFact数据集上,ArbGraph在多个LLM backbone下,事实召回率平均提升了5%-10%。实验结果表明,ArbGraph在处理冲突或模糊证据时表现出显著优势。

🎯 应用场景

ArbGraph可应用于各种需要长文本RAG的场景,例如自动问答、文档摘要、报告生成等。通过提高生成内容的事实一致性和可靠性,ArbGraph可以提升用户对RAG系统的信任度,并减少错误信息的传播。未来,ArbGraph可以进一步扩展到处理更复杂的证据关系,并与其他RAG技术相结合,以实现更强大的长文本生成能力。

📄 摘要(原文)

Retrieval-augmented generation (RAG) remains unreliable in long-form settings, where retrieved evidence is noisy or contradictory, making it difficult for RAG pipelines to maintain factual consistency. Existing approaches focus on retrieval expansion or verification during generation, leaving conflict resolution entangled with generation. To address this limitation, we propose ArbGraph, a framework for pre-generation evidence arbitration in long-form RAG that explicitly resolves factual conflicts. ArbGraph decomposes retrieved documents into atomic claims and organizes them into a conflict-aware evidence graph with explicit support and contradiction relations. On top of this graph, we introduce an intensity-driven iterative arbitration mechanism that propagates credibility signals through evidence interactions, enabling the system to suppress unreliable and inconsistent claims before final generation. In this way, ArbGraph separates evidence validation from text generation and provides a coherent evidence foundation for downstream long-form generation. We evaluate ArbGraph on two widely used long-form RAG benchmarks, LongFact and RAGChecker, using multiple large language model backbones. Experimental results show that ArbGraph consistently improves factual recall and information density while reducing hallucinations and sensitivity to retrieval noise. Additional analyses show that these gains are evident under conflicting or ambiguous evidence, highlighting the effectiveness of evidence-level conflict resolution for improving the reliability of long-form RAG. The implementation is publicly available at https://github.com/1212Judy/ArbGraph.