REFIND at SemEval-2025 Task 3: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models

📄 arXiv: 2502.13622v2 📥 PDF

作者: DongGeon Lee, Hwanjo Yu

分类: cs.CL, cs.AI

发布日期: 2025-02-19 (更新: 2025-04-08)

备注: Accepted to SemEval@ACL 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出REFIND框架,通过检索增强和上下文敏感度量化,检测大语言模型中的幻觉。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉检测 检索增强 上下文敏感度 知识密集型任务

📋 核心要点

  1. 现有方法难以有效检测大语言模型在知识密集型任务中产生的幻觉,降低了模型可靠性。
  2. REFIND框架通过检索相关文档,并量化模型输出对检索证据的敏感性来检测幻觉。
  3. 实验结果表明,REFIND在多种语言上优于现有方法,显著提升了幻觉检测的准确率。

📝 摘要(中文)

大型语言模型(LLM)输出中的幻觉严重限制了其在知识密集型任务(如问答)中的可靠性。为了应对这一挑战,我们引入了REFIND(检索增强的事实性幻觉检测)框架,该框架通过直接利用检索到的文档来检测LLM输出中的幻觉跨度。作为REFIND的一部分,我们提出了一种新颖的指标,即上下文敏感度比率(CSR),用于量化LLM输出对检索证据的敏感性。这种创新方法使REFIND能够高效准确地检测幻觉,使其有别于现有方法。在评估中,REFIND在包括低资源环境在内的九种语言中表现出稳健性,并且显著优于基线模型,在识别幻觉跨度方面实现了更高的IoU分数。这项工作突出了量化上下文敏感性对于幻觉检测的有效性,从而为跨多种语言的更可靠和值得信赖的LLM应用铺平了道路。我们的代码可在https://github.com/oneonlee/REFIND获取。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在生成文本时出现的“幻觉”问题,即生成的内容与事实不符或无法验证。现有方法通常依赖于复杂的模型或需要大量标注数据,效率较低且泛化能力有限。这些方法难以准确识别幻觉的具体位置,并且在低资源语言上的表现不佳。

核心思路:REFIND的核心思路是利用外部知识库(通过检索获得)来验证LLM的生成内容。通过比较LLM的输出与检索到的证据,判断输出是否与证据一致。关键在于量化LLM输出对检索证据的敏感性,如果输出对证据不敏感,则可能存在幻觉。这种方法避免了直接训练复杂的幻觉检测模型,而是利用了LLM本身的能力和外部知识。

技术框架:REFIND框架主要包含以下几个阶段:1) 检索阶段:对于LLM的输出,使用检索模型(如BM25或DPR)从外部知识库中检索相关文档。2) 上下文敏感度计算阶段:计算LLM输出对检索到的证据的上下文敏感度比率(CSR)。CSR通过比较在有无检索证据的情况下,LLM生成相同内容的概率来衡量。3) 幻觉检测阶段:根据CSR的值,判断LLM输出中是否存在幻觉。如果CSR低于设定的阈值,则认为该部分内容可能存在幻觉。

关键创新:REFIND最重要的技术创新点在于提出了上下文敏感度比率(CSR)这一指标。CSR能够有效地量化LLM输出对检索证据的依赖程度,从而准确地识别幻觉。与现有方法相比,REFIND不需要训练额外的幻觉检测模型,而是直接利用LLM本身的能力和外部知识,更加高效和灵活。

关键设计:CSR的计算公式为:CSR = P(output | retrieved context) / P(output | no context)。其中,P(output | retrieved context)表示在有检索证据的情况下,LLM生成特定输出的概率;P(output | no context)表示在没有检索证据的情况下,LLM生成相同输出的概率。概率的计算可以使用LLM的语言模型概率。阈值的设定需要根据具体的任务和数据集进行调整,可以通过实验确定最佳阈值。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

REFIND在九种语言(包括低资源语言)的实验中表现出强大的鲁棒性,显著优于基线模型。在幻觉跨度识别任务中,REFIND取得了更高的IoU分数,表明其能够更准确地定位幻觉的具体位置。实验结果验证了上下文敏感度比率(CSR)在幻觉检测中的有效性。

🎯 应用场景

REFIND框架可广泛应用于各种知识密集型任务,例如问答系统、文本摘要、机器翻译等。通过检测和纠正LLM输出中的幻觉,可以提高这些应用的可靠性和准确性。该研究对于构建更值得信赖和负责任的人工智能系统具有重要意义,尤其是在需要高度准确信息的领域,如医疗、金融和法律。

📄 摘要(原文)

Hallucinations in large language model (LLM) outputs severely limit their reliability in knowledge-intensive tasks such as question answering. To address this challenge, we introduce REFIND (Retrieval-augmented Factuality hallucINation Detection), a novel framework that detects hallucinated spans within LLM outputs by directly leveraging retrieved documents. As part of the REFIND, we propose the Context Sensitivity Ratio (CSR), a novel metric that quantifies the sensitivity of LLM outputs to retrieved evidence. This innovative approach enables REFIND to efficiently and accurately detect hallucinations, setting it apart from existing methods. In the evaluation, REFIND demonstrated robustness across nine languages, including low-resource settings, and significantly outperformed baseline models, achieving superior IoU scores in identifying hallucinated spans. This work highlights the effectiveness of quantifying context sensitivity for hallucination detection, thereby paving the way for more reliable and trustworthy LLM applications across diverse languages. Our code is available at https://github.com/oneonlee/REFIND.