Hallucination Detection in Large Language Models with Metamorphic Relations

📄 arXiv: 2502.15844v2 📥 PDF

作者: Borui Yang, Md Afif Al Mamun, Jie M. Zhang, Gias Uddin

分类: cs.CL, cs.LG

发布日期: 2025-02-20 (更新: 2025-03-11)

备注: Accepted to the ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering (ESEC/FSE 2025)


💡 一句话要点

提出MetaQA,利用变质关系和提示突变检测大语言模型中的幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉检测 变质关系 提示突变 零资源学习

📋 核心要点

  1. 现有大语言模型幻觉检测方法依赖外部资源或输出概率,存在可用性、隐私和闭源模型兼容性等问题。
  2. MetaQA利用变质关系和提示突变,无需外部资源,通过检验变质关系是否被违反来检测幻觉。
  3. 实验表明,MetaQA在精确率、召回率和F1分数上均优于SelfCheckGPT,在多个LLM和数据集上均有显著提升。

📝 摘要(中文)

大型语言模型(LLMs)容易产生幻觉,例如在回复中包含不准确的事实信息。这些幻觉对需要高事实准确性的基于LLM的应用提出了挑战。现有的幻觉检测方法主要依赖于外部资源,但这些资源可能存在可用性低、覆盖不完整、隐私问题、高延迟、低可靠性和可扩展性差等问题。也有些方法依赖于输出概率,但对于像GPT模型这样的闭源LLM,这些概率通常无法访问。本文提出MetaQA,一种自包含的幻觉检测方法,它利用变质关系和提示突变。与现有方法不同,MetaQA无需任何外部资源即可运行,并且与开源和闭源LLM兼容。MetaQA基于这样的假设:如果LLM的响应是幻觉,那么设计的变质关系将被违反。我们将MetaQA与最先进的零资源幻觉检测方法SelfCheckGPT在多个数据集以及两个开源和两个闭源LLM上进行了比较。结果表明,MetaQA在精确率、召回率和F1分数方面均优于SelfCheckGPT。对于我们研究的四个LLM,MetaQA的优越性范围为0.041 - 0.113(精确率),0.143 - 0.430(召回率)和0.154 - 0.368(F1分数)。例如,对于Mistral-7B,MetaQA的平均F1分数为0.435,而SelfCheckGPT的F1分数为0.205,提升率为112.2%。MetaQA还在所有不同类型的问题中表现出优越性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)中普遍存在的幻觉问题,即LLMs生成不准确或与事实相悖的信息。现有方法主要依赖外部知识库或模型输出概率,但前者面临可用性、覆盖率、隐私等问题,后者则不适用于闭源LLMs,限制了幻觉检测的适用性和有效性。

核心思路:MetaQA的核心思路是利用变质关系(Metamorphic Relations, MRs)和提示突变(Prompt Mutation)进行自包含的幻觉检测。变质关系描述了在输入发生变化时,输出应该满足的某种不变性。如果LLM的响应是幻觉,那么这种不变性很可能被违反。提示突变则用于生成不同的输入,以触发LLM的不同响应,从而验证变质关系。

技术框架:MetaQA的整体框架包括以下几个主要步骤:1) 原始问题输入LLM,获得初始响应;2) 对原始问题进行提示突变,生成新的问题;3) 将新问题输入LLM,获得新的响应;4) 定义并验证原始响应和新响应之间的变质关系;5) 如果变质关系被违反,则认为原始响应存在幻觉。

关键创新:MetaQA的关键创新在于它是一种自包含的幻觉检测方法,无需依赖任何外部资源,并且兼容开源和闭源LLMs。它通过巧妙地利用变质关系和提示突变,在不访问模型内部信息的情况下,有效地检测LLMs的幻觉。

关键设计:MetaQA的关键设计包括:1) 如何设计有效的提示突变策略,以生成多样化的新问题;2) 如何定义合适的变质关系,以准确地捕捉LLMs响应中的不一致性;3) 如何设置阈值来判断变质关系是否被违反。具体的提示突变策略和变质关系的定义可能需要根据不同的任务和LLMs进行调整。论文中可能包含了一些示例,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MetaQA在多个数据集和LLM上与SelfCheckGPT进行了比较,结果显示MetaQA在精确率、召回率和F1分数方面均优于SelfCheckGPT。例如,在Mistral-7B上,MetaQA的平均F1分数为0.435,而SelfCheckGPT的F1分数为0.205,提升率为112.2%。MetaQA在不同类型的问题上都表现出优越性,证明了其通用性和有效性。

🎯 应用场景

MetaQA可应用于各种需要高事实准确性的大语言模型应用,如问答系统、知识图谱构建、内容生成等。通过提高LLM的可靠性,MetaQA有助于提升用户信任度,减少错误信息的传播,并促进LLM在更广泛领域的应用。未来,该方法可以进一步扩展到检测其他类型的LLM错误,并与其他幻觉缓解技术相结合。

📄 摘要(原文)

Large Language Models (LLMs) are prone to hallucinations, e.g., factually incorrect information, in their responses. These hallucinations present challenges for LLM-based applications that demand high factual accuracy. Existing hallucination detection methods primarily depend on external resources, which can suffer from issues such as low availability, incomplete coverage, privacy concerns, high latency, low reliability, and poor scalability. There are also methods depending on output probabilities, which are often inaccessible for closed-source LLMs like GPT models. This paper presents MetaQA, a self-contained hallucination detection approach that leverages metamorphic relation and prompt mutation. Unlike existing methods, MetaQA operates without any external resources and is compatible with both open-source and closed-source LLMs. MetaQA is based on the hypothesis that if an LLM's response is a hallucination, the designed metamorphic relations will be violated. We compare MetaQA with the state-of-the-art zero-resource hallucination detection method, SelfCheckGPT, across multiple datasets, and on two open-source and two closed-source LLMs. Our results reveal that MetaQA outperforms SelfCheckGPT in terms of precision, recall, and f1 score. For the four LLMs we study, MetaQA outperforms SelfCheckGPT with a superiority margin ranging from 0.041 - 0.113 (for precision), 0.143 - 0.430 (for recall), and 0.154 - 0.368 (for F1-score). For instance, with Mistral-7B, MetaQA achieves an average F1-score of 0.435, compared to SelfCheckGPT's F1-score of 0.205, representing an improvement rate of 112.2%. MetaQA also demonstrates superiority across all different categories of questions.