MetaRAG: Metamorphic Testing for Hallucination Detection in RAG Systems
作者: Channdeth Sok, David Luz, Yacine Haddam
分类: cs.CL
发布日期: 2025-09-11 (更新: 2025-11-07)
备注: Identity-Aware AI workshop at 28th European Conference on Artificial Intelligence, October 25, 2025, Bologna, Italy
💡 一句话要点
MetaRAG:针对RAG系统中幻觉检测的变质测试框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 幻觉检测 变质测试 大型语言模型 自然语言处理
📋 核心要点
- 现有幻觉检测方法主要针对独立LLM,忽略了RAG系统响应与检索证据一致性的独特挑战。
- MetaRAG通过分解答案为事实片段,生成变异,并根据检索上下文验证一致性来检测RAG系统中的幻觉。
- 在企业数据集上的实验表明,MetaRAG能有效检测幻觉,并支持身份感知的安全部署。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地部署在企业应用中,但其可靠性仍然受到幻觉的限制,即自信但事实上不正确的信息。现有的检测方法,如SelfCheckGPT和MetaQA,主要针对独立的LLM,并没有解决检索增强生成(RAG)系统的独特挑战,即响应必须与检索到的证据一致。因此,我们提出了MetaRAG,一个用于检索增强生成(RAG)系统中幻觉检测的变质测试框架。MetaRAG在实时、无监督、黑盒环境中运行,不需要ground-truth参考或访问模型内部结构,使其适用于专有和高风险领域。该框架分四个阶段进行:(1)将答案分解为原子事实片段,(2)使用同义词和反义词替换生成每个事实片段的受控变异,(3)根据检索到的上下文验证每个变体(同义词应被蕴含,反义词应被矛盾),以及(4)将不一致的惩罚聚合为响应级别的幻觉分数。对于身份感知AI至关重要的是,MetaRAG将不支持的声明定位到发生的事实片段跨度(例如,妊娠特有的预防措施、LGBTQ+难民权利或劳动资格),允许用户查看标记的跨度,并使系统设计人员能够为身份敏感的查询配置阈值和保障措施。在专有企业数据集上的实验证明了MetaRAG在检测幻觉和实现基于RAG的对话代理的可信部署方面的有效性。我们还概述了一种基于主题的部署设计,该设计将MetaRAG的跨度级别分数转化为身份感知的保障措施;该设计已讨论但未在我们的实验中进行评估。
🔬 方法详解
问题定义:论文旨在解决RAG系统中LLM产生的幻觉问题,即生成与检索到的上下文不一致的事实性错误。现有方法主要关注独立LLM,缺乏针对RAG系统特性的有效幻觉检测手段。RAG系统需要保证生成内容与检索到的知识一致,而现有方法无法有效评估这种一致性。
核心思路:MetaRAG的核心思路是利用变质测试的思想,通过对RAG系统生成的答案进行微小但可控的修改(如同义词/反义词替换),然后验证修改后的答案与检索到的上下文是否仍然一致。如果修改后的答案与上下文产生矛盾,则认为原始答案可能存在幻觉。这种方法无需ground-truth,适用于黑盒环境。
技术框架:MetaRAG框架包含四个主要阶段: 1. 事实片段分解:将RAG系统生成的答案分解为更小的、原子性的事实片段。 2. 变异生成:对每个事实片段进行变异,例如使用同义词替换或反义词替换。 3. 变体验证:验证每个变异后的事实片段与RAG系统检索到的上下文是否一致。同义词替换后的片段应与上下文蕴含关系,反义词替换后的片段应与上下文矛盾。 4. 幻觉评分:根据变体验证的结果,对每个事实片段进行评分,并聚合为整个响应的幻觉分数。
关键创新:MetaRAG的关键创新在于将变质测试应用于RAG系统的幻觉检测,并提出了基于事实片段的变异和验证方法。与现有方法相比,MetaRAG能够定位到具体的幻觉片段,并提供更细粒度的幻觉检测结果。此外,MetaRAG是一种黑盒方法,不需要访问模型内部结构或ground-truth数据。
关键设计:MetaRAG的关键设计包括: * 变异策略:选择合适的同义词和反义词替换策略,以确保变异后的片段仍然具有语义意义。 * 一致性验证:设计有效的一致性验证方法,判断变异后的片段与检索到的上下文是否一致。这可能涉及到自然语言推理(NLI)模型或知识图谱等技术。 * 幻觉评分:设计合理的幻觉评分函数,将不同事实片段的验证结果聚合为整个响应的幻觉分数。可以根据不同类型的错误赋予不同的权重。
📊 实验亮点
论文在专有企业数据集上验证了MetaRAG的有效性,表明其能够检测RAG系统中的幻觉。MetaRAG能够定位到具体的幻觉片段,并提供细粒度的幻觉检测结果。此外,论文还提出了基于主题的部署设计,将MetaRAG的跨度级别分数转化为身份感知的保障措施,但该设计未在实验中进行评估。
🎯 应用场景
MetaRAG可应用于各种需要可靠信息生成的RAG系统中,例如企业级问答系统、医疗健康信息查询、金融风险评估等。通过检测和减少幻觉,MetaRAG可以提高RAG系统的可信度,避免因错误信息导致的不良后果。未来,MetaRAG可以扩展到支持更多类型的变异和验证方法,并与其他幻觉检测技术相结合,进一步提高检测精度。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly deployed in enterprise applications, yet their reliability remains limited by hallucinations, i.e., confident but factually incorrect information. Existing detection approaches, such as SelfCheckGPT and MetaQA, primarily target standalone LLMs and do not address the unique challenges of Retrieval-Augmented Generation (RAG) systems, where responses must be consistent with retrieved evidence. We therefore present MetaRAG, a metamorphic testing framework for hallucination detection in Retrieval-Augmented Generation (RAG) systems. MetaRAG operates in a real-time, unsupervised, black-box setting, requiring neither ground-truth references nor access to model internals, making it suitable for proprietary and high-stakes domains. The framework proceeds in four stages: (1) decompose answers into atomic factoids, (2) generate controlled mutations of each factoid using synonym and antonym substitutions, (3) verify each variant against the retrieved context (synonyms are expected to be entailed and antonyms contradicted), and (4) aggregate penalties for inconsistencies into a response-level hallucination score. Crucially for identity-aware AI, MetaRAG localizes unsupported claims at the factoid span where they occur (e.g., pregnancy-specific precautions, LGBTQ+ refugee rights, or labor eligibility), allowing users to see flagged spans and enabling system designers to configure thresholds and guardrails for identity-sensitive queries. Experiments on a proprietary enterprise dataset illustrate the effectiveness of MetaRAG for detecting hallucinations and enabling trustworthy deployment of RAG-based conversational agents. We also outline a topic-based deployment design that translates MetaRAG's span-level scores into identity-aware safeguards; this design is discussed but not evaluated in our experiments.