Towards Unification of Hallucination Detection and Fact Verification for Large Language Models

作者: Weihang Su, Jianming Long, Changyue Wang, Shiyu Lin, Jingyan Xu, Ziyi Ye, Qingyao Ai, Yiqun Liu

分类: cs.CL, cs.IR

发布日期: 2025-12-02

🔗 代码/项目: GITHUB

💡 一句话要点

提出UniFact统一框架，弥合LLM幻觉检测与事实验证的研究鸿沟

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 事实验证 统一框架 评估基准

📋 核心要点

大型语言模型存在幻觉问题，现有幻觉检测(HD)和事实验证(FV)方法各自独立发展，缺乏统一的评估和比较。
提出UniFact框架，动态生成模型输出和事实标签，实现HD和FV的实例级别比较，弥合研究鸿沟。
实验表明，HD和FV互补，集成方法性能最佳。分析了两者分歧原因，呼吁统一研究LLM的事实性问题。

📝 摘要（中文）

大型语言模型(LLMs)经常出现幻觉，生成的内容流畅连贯但事实不正确。这种错误降低了信任度，阻碍了它们在实际应用中的采用。为了解决这个问题，出现了两种不同的研究范式：以模型为中心的幻觉检测(HD)和以文本为中心的事实验证(FV)。尽管目标相同，但这些范式在孤立状态下发展，使用不同的假设、数据集和评估协议。这种分离造成了研究上的分裂，阻碍了它们的集体进步。本文朝着弥合这一鸿沟迈出了决定性的一步。我们引入了UniFact，一个统一的评估框架，通过动态生成模型输出和相应的事实性标签，实现FV和HD之间的直接、实例级别的比较。通过跨多个LLM家族和检测方法的大规模实验，我们揭示了三个关键发现：(1)没有哪个范式是普遍优越的；(2)HD和FV捕捉到事实错误的互补方面；(3)集成这两种方法的混合方法始终能达到最先进的性能。除了基准测试之外，我们还首次深入分析了FV和HD分歧的原因，以及支持统一的经验证据。全面的实验结果呼吁制定一个新的、综合的研究议程，以统一LLM中的幻觉检测和事实验证。

🔬 方法详解

问题定义：大型语言模型（LLMs）的幻觉问题，即生成看似合理但实际上不正确的内容，严重影响了LLMs的可信度和实际应用。现有的幻觉检测（HD）和事实验证（FV）方法各自为政，使用不同的数据集、评估指标和假设，导致难以直接比较和融合，阻碍了该领域的发展。

核心思路：UniFact的核心思路是建立一个统一的评估框架，能够动态地生成LLM的输出，并同时生成对应的事实性标签。通过这种方式，可以将HD和FV方法放在同一个平台上进行比较，从而发现它们的优势和劣势，并为未来的融合研究提供基础。

技术框架：UniFact框架主要包含以下几个模块：1) 数据生成模块：根据预定义的模板和知识库，生成包含事实信息的提示（prompt）。2) LLM推理模块：将生成的提示输入到待评估的LLM中，得到模型的输出。3) 事实标签生成模块：根据提示和知识库，自动生成模型输出的事实性标签（例如，正确或错误）。4) 评估模块：使用生成的数据和标签，对HD和FV方法进行评估和比较。

关键创新：UniFact的关键创新在于其动态生成数据和标签的能力。传统的HD和FV方法依赖于人工标注的数据集，成本高昂且难以覆盖所有可能的场景。UniFact通过自动化生成数据和标签，可以大大降低评估成本，并能够灵活地适应不同的LLM和应用场景。

关键设计：UniFact的关键设计包括：1) 提示模板的设计：需要设计能够有效激发LLM生成事实性内容的提示模板。2) 知识库的选择：需要选择可靠且全面的知识库，以保证生成的事实标签的准确性。3) 评估指标的选择：需要选择能够全面反映HD和FV方法性能的评估指标，例如准确率、召回率和F1值。

🖼️ 关键图片

📊 实验亮点

实验结果表明，没有单一的HD或FV方法在所有情况下都表现最佳，两者捕捉了事实错误的互补方面。集成HD和FV的混合方法在多个LLM家族上始终取得最先进的性能，验证了UniFact框架的有效性和统一研究方向的必要性。

🎯 应用场景

该研究成果可应用于提升大型语言模型的事实性和可靠性，例如在智能客服、内容生成、知识问答等领域。通过UniFact框架，可以更有效地评估和改进LLM的幻觉问题，提高用户信任度，促进LLM在实际场景中的应用。

📄 摘要（原文）

Large Language Models (LLMs) frequently exhibit hallucinations, generating content that appears fluent and coherent but is factually incorrect. Such errors undermine trust and hinder their adoption in real-world applications. To address this challenge, two distinct research paradigms have emerged: model-centric Hallucination Detection (HD) and text-centric Fact Verification (FV). Despite sharing the same goal, these paradigms have evolved in isolation, using distinct assumptions, datasets, and evaluation protocols. This separation has created a research schism that hinders their collective progress. In this work, we take a decisive step toward bridging this divide. We introduce UniFact, a unified evaluation framework that enables direct, instance-level comparison between FV and HD by dynamically generating model outputs and corresponding factuality labels. Through large-scale experiments across multiple LLM families and detection methods, we reveal three key findings: (1) No paradigm is universally superior; (2) HD and FV capture complementary facets of factual errors; and (3) hybrid approaches that integrate both methods consistently achieve state-of-the-art performance. Beyond benchmarking, we provide the first in-depth analysis of why FV and HD diverged, as well as empirical evidence supporting the need for their unification. The comprehensive experimental results call for a new, integrated research agenda toward unifying Hallucination Detection and Fact Verification in LLMs. We have open-sourced all the code, data, and baseline implementation at: https://github.com/oneal2000/UniFact/

Towards Unification of Hallucination Detection and Fact Verification for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理