FactSelfCheck: Fact-Level Black-Box Hallucination Detection for LLMs

📄 arXiv: 2503.17229v2 📥 PDF

作者: Albert Sawczyn, Jakub Binkowski, Denis Janiak, Bogdan Gabrys, Tomasz Kajdanowicz

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-03-21 (更新: 2025-05-30)

备注: Preprint


💡 一句话要点

FactSelfCheck:一种用于LLM的事实级黑盒幻觉检测方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 知识图谱 事实一致性 黑盒方法

📋 核心要点

  1. 现有LLM幻觉检测方法粒度粗,通常在句子或段落级别,缺乏对具体事实的辨别能力。
  2. FactSelfCheck通过构建知识图谱,将文本分解为事实三元组,并分析LLM多次响应的事实一致性来检测幻觉。
  3. 实验表明,FactSelfCheck在幻觉检测上与现有方法具有竞争力,并在幻觉纠正方面取得了显著提升,事实内容提升达35.5%。

📝 摘要(中文)

大型语言模型(LLMs)经常生成幻觉内容,这对事实性至关重要的应用提出了重大挑战。现有的幻觉检测方法通常在句子或段落级别上运行,而我们提出了FactSelfCheck,一种新颖的基于黑盒采样的细粒度事实级检测方法。我们的方法将文本表示为知识图谱,由三元组形式的事实组成。通过分析多个LLM响应中的事实一致性,我们计算细粒度的幻觉分数,而无需外部资源或训练数据。评估表明,FactSelfCheck在提供更详细的见解的同时,在性能上与领先的基于句子级采样的方法具有竞争力。最值得注意的是,我们的事实级方法显著改善了幻觉校正,与基线相比,事实内容增加了35.5%,而句子级的SelfCheckGPT仅产生了10.6%的改进。我们检测的粒度特性能够更精确地识别和纠正幻觉内容。此外,我们还贡献了一个新的数据集FavaMultiSamples,用于评估基于采样的方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)生成幻觉内容的问题,特别是现有幻觉检测方法粒度较粗,无法精确定位到具体的事实错误。现有方法通常在句子或段落级别进行检测,难以提供细粒度的幻觉信息,从而限制了幻觉纠正的效果。

核心思路:论文的核心思路是将文本表示为知识图谱,图中的节点和边代表事实,以三元组的形式(例如,主语-谓语-宾语)表示。通过对LLM进行多次采样,生成多个不同的响应,然后分析这些响应中事实的一致性。如果某个事实在多个响应中都存在且一致,则认为该事实是可靠的;反之,如果某个事实在不同响应中存在矛盾或缺失,则认为该事实可能存在幻觉。

技术框架:FactSelfCheck的整体框架包括以下几个主要阶段:1) 知识图谱构建:将输入文本转换为知识图谱,提取文本中的事实三元组。2) LLM采样:使用LLM对输入文本进行多次采样,生成多个不同的响应。3) 事实提取:从每个LLM响应中提取事实三元组。4) 一致性分析:比较不同响应中提取的事实三元组,计算每个事实的幻觉分数。5) 幻觉检测与纠正:根据幻觉分数,识别并纠正文本中的幻觉内容。

关键创新:FactSelfCheck的关键创新在于其事实级别的幻觉检测方法。与现有的句子或段落级别的方法相比,FactSelfCheck能够提供更细粒度的幻觉信息,从而实现更精确的幻觉纠正。此外,该方法是黑盒的,不需要访问LLM的内部参数或训练数据,具有更广泛的适用性。

关键设计:论文的关键设计包括:1) 知识图谱的构建方式:如何有效地从文本中提取准确的事实三元组。2) LLM采样的策略:如何选择合适的采样参数,以生成多样化的响应。3) 一致性分析的算法:如何有效地比较不同响应中的事实三元组,并计算幻觉分数。4) 幻觉纠正的策略:如何根据幻觉分数,选择合适的纠正方法,例如,使用更可靠的事实替换幻觉事实。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FactSelfCheck在幻觉检测方面与领先的句子级方法具有竞争力,并在幻觉纠正方面取得了显著提升。与基线相比,FactSelfCheck使事实内容增加了35.5%,而句子级的SelfCheckGPT仅提升了10.6%。此外,论文还贡献了一个新的数据集FavaMultiSamples,用于评估基于采样的方法。

🎯 应用场景

FactSelfCheck可应用于各种需要高事实准确性的场景,如新闻摘要、问答系统、医疗诊断等。通过提高LLM生成内容的可靠性,可以增强用户信任度,减少错误信息的传播。该方法还可用于评估和改进LLM的事实性,推动LLM在知识密集型领域的应用。

📄 摘要(原文)

Large Language Models (LLMs) frequently generate hallucinated content, posing significant challenges for applications where factuality is crucial. While existing hallucination detection methods typically operate at the sentence level or passage level, we propose FactSelfCheck, a novel black-box sampling-based method that enables fine-grained fact-level detection. Our approach represents text as knowledge graphs consisting of facts in the form of triples. Through analyzing factual consistency across multiple LLM responses, we compute fine-grained hallucination scores without requiring external resources or training data. Our evaluation demonstrates that FactSelfCheck performs competitively with leading sentence-level sampling-based methods while providing more detailed insights. Most notably, our fact-level approach significantly improves hallucination correction, achieving a 35.5% increase in factual content compared to the baseline, while sentence-level SelfCheckGPT yields only a 10.6% improvement. The granular nature of our detection enables more precise identification and correction of hallucinated content. Additionally, we contribute a new dataset for evaluating sampling-based methods - FavaMultiSamples.