Is Conformal Factuality for RAG-based LLMs Robust? Novel Metrics and Systematic Insights

📄 arXiv: 2603.16817v1 📥 PDF

作者: Yi Chen, Daiwei Chen, Sukrut Madhav Chikodikar, Caitlyn Heqi Yin, Ramya Korlakai Vinayak

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-03-17

备注: 56 pages


💡 一句话要点

分析RAG中Conformal Factuality的鲁棒性,提出新指标并揭示其局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RAG Conformal Factuality 事实性 信息量 鲁棒性 分布偏移 LLM 知识密集型应用

📋 核心要点

  1. 现有RAG方法无法保证生成内容的事实性,Conformal Factuality虽然能提供统计保证,但信息量不足。
  2. 论文提出新的信息量感知指标,用于评估Conformal Factuality在RAG中的实用性,并分析其鲁棒性。
  3. 实验表明Conformal Factuality在分布偏移下鲁棒性差,且轻量级验证器性能可媲美大型LLM评分器。

📝 摘要(中文)

大型语言模型(LLM)常出现幻觉,限制了其在知识密集型应用中的可靠性。检索增强生成(RAG)和Conformal Factuality是解决此问题的潜在方法。RAG旨在将响应建立在检索到的证据之上,但不能保证最终输出的正确性。Conformal Factuality过滤通过使用在留出数据上校准的阈值来评分和过滤原子声明,从而提供无分布的统计可靠性,但不能保证最终输出的信息量。本文系统地分析了RAG-based LLM中Conformal Factuality在生成、评分、校准、鲁棒性和效率方面的可靠性和实用性。提出了新的信息量感知指标,更好地反映了Conformal过滤下的任务效用。结果表明:(i)由于输出空洞,Conformal过滤在高事实性水平下实用性较低;(ii)Conformal Factuality保证对分布偏移和干扰不具有鲁棒性,需要校准数据与部署条件紧密匹配;(iii)轻量级的基于蕴含关系的验证器在计算量减少100倍以上的情况下,性能与基于LLM的模型置信度评分器相匹配或超过。结果揭示了事实性-信息量之间的权衡以及Conformal过滤框架在分布偏移和干扰下的脆弱性,强调了对具有鲁棒性和实用性的可靠性新方法的需求,并为构建可靠且计算高效的RAG管道提供了可操作的指导。

🔬 方法详解

问题定义:论文旨在解决RAG系统中Conformal Factuality方法在实际应用中存在的鲁棒性和实用性问题。现有方法虽然能提高事实性,但容易产生信息量不足的输出,并且在面对分布偏移和干扰时表现不佳。这限制了RAG系统在需要高可靠性和信息量的知识密集型任务中的应用。

核心思路:论文的核心思路是通过更全面的指标来评估Conformal Factuality,并分析其在不同场景下的性能。通过引入信息量感知的指标,可以更好地衡量Conformal Factuality在提高事实性的同时,对输出信息量的影响。同时,通过在分布偏移和干扰下进行测试,可以揭示Conformal Factuality的鲁棒性问题。

技术框架:论文的研究框架主要包括以下几个阶段:1) 数据准备:选择三个基准数据集,并构建包含分布偏移和干扰的测试集。2) RAG系统构建:使用不同的LLM作为生成器,并结合检索模块构建RAG系统。3) Conformal Factuality过滤:使用预训练的LLM或轻量级验证器对生成的原子声明进行评分,并根据校准数据设置阈值进行过滤。4) 指标评估:使用传统的事实性指标和新提出的信息量感知指标,评估Conformal Factuality的性能。5) 鲁棒性测试:在分布偏移和干扰下测试Conformal Factuality的性能。

关键创新:论文的关键创新点在于:1) 提出了新的信息量感知指标,更全面地评估Conformal Factuality的性能。2) 系统地分析了Conformal Factuality在RAG系统中的鲁棒性问题,揭示了其在分布偏移和干扰下的局限性。3) 证明了轻量级验证器在计算效率方面优于LLM评分器,且性能相当。

关键设计:论文的关键设计包括:1) 信息量感知指标的设计,例如考虑输出的长度和多样性。2) 分布偏移和干扰的构建方法,例如引入不相关的上下文信息。3) 轻量级验证器的选择和训练,例如使用基于蕴含关系的分类器。

📊 实验亮点

实验结果表明,Conformal Factuality在高事实性水平下实用性较低,且对分布偏移和干扰不具有鲁棒性。轻量级的基于蕴含关系的验证器在计算量减少100倍以上的情况下,性能与基于LLM的模型置信度评分器相匹配或超过。这些结果揭示了事实性-信息量之间的权衡,并为构建更高效的RAG系统提供了指导。

🎯 应用场景

该研究成果可应用于知识密集型问答、文档摘要、报告生成等领域,帮助构建更可靠、信息量更丰富的RAG系统。通过选择合适的验证器和校准策略,可以提高RAG系统在实际应用中的性能,并降低计算成本。未来的研究可以探索更鲁棒的Conformal Factuality方法,以应对复杂的分布偏移和干扰。

📄 摘要(原文)

Large language models (LLMs) frequently hallucinate, limiting their reliability in knowledge-intensive applications. Retrieval-augmented generation (RAG) and conformal factuality have emerged as potential ways to address this limitation. While RAG aims to ground responses in retrieved evidence, it provides no statistical guarantee that the final output is correct. Conformal factuality filtering offers distribution-free statistical reliability by scoring and filtering atomic claims using a threshold calibrated on held-out data, however, the informativeness of the final output is not guaranteed. We systematically analyze the reliability and usefulness of conformal factuality for RAG-based LLMs across generation, scoring, calibration, robustness, and efficiency. We propose novel informativeness-aware metrics that better reflect task utility under conformal filtering. Across three benchmarks and multiple model families, we find that (i) conformal filtering suffers from low usefulness at high factuality levels due to vacuous outputs, (ii) conformal factuality guarantee is not robust to distribution shifts and distractors, highlighting the limitation that requires calibration data to closely match deployment conditions, and (iii) lightweight entailment-based verifiers match or outperform LLM-based model confidence scorers while requiring over $100\times$ fewer FLOPs. Overall, our results expose factuality-informativeness trade-offs and fragility of conformal filtering framework under distribution shifts and distractors, highlighting the need for new approaches for reliability with robustness and usefulness as key metrics, and provide actionable guidance for building RAG pipelines that are both reliable and computationally efficient.