Towards Unification of Hallucination Detection and Fact Verification for Large Language Models

📄 arXiv: 2512.02772v1 📥 PDF

作者: Weihang Su, Jianming Long, Changyue Wang, Shiyu Lin, Jingyan Xu, Ziyi Ye, Qingyao Ai, Yiqun Liu

分类: cs.CL, cs.IR

发布日期: 2025-12-02

🔗 代码/项目: GITHUB


💡 一句话要点

提出UniFact统一框架,弥合LLM幻觉检测与事实验证的研究鸿沟

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 事实验证 统一框架 评估基准

📋 核心要点

  1. 大型语言模型存在幻觉问题,现有幻觉检测(HD)和事实验证(FV)方法各自独立发展,缺乏统一的评估和比较。
  2. 提出UniFact框架,动态生成模型输出和事实标签,实现HD和FV的实例级别比较,弥合研究鸿沟。
  3. 实验表明,HD和FV互补,集成方法性能最佳。分析了两者分歧原因,呼吁统一研究LLM的事实性问题。

📝 摘要(中文)

大型语言模型(LLMs)经常出现幻觉,生成的内容流畅连贯但事实不正确。这种错误降低了信任度,阻碍了它们在实际应用中的采用。为了解决这个问题,出现了两种不同的研究范式:以模型为中心的幻觉检测(HD)和以文本为中心的事实验证(FV)。尽管目标相同,但这些范式在孤立状态下发展,使用不同的假设、数据集和评估协议。这种分离造成了研究上的分裂,阻碍了它们的集体进步。本文朝着弥合这一鸿沟迈出了决定性的一步。我们引入了UniFact,一个统一的评估框架,通过动态生成模型输出和相应的事实性标签,实现FV和HD之间的直接、实例级别的比较。通过跨多个LLM家族和检测方法的大规模实验,我们揭示了三个关键发现:(1)没有哪个范式是普遍优越的;(2)HD和FV捕捉到事实错误的互补方面;(3)集成这两种方法的混合方法始终能达到最先进的性能。除了基准测试之外,我们还首次深入分析了FV和HD分歧的原因,以及支持统一的经验证据。全面的实验结果呼吁制定一个新的、综合的研究议程,以统一LLM中的幻觉检测和事实验证。

🔬 方法详解

问题定义:大型语言模型(LLMs)的幻觉问题,即生成看似合理但实际上不正确的内容,严重影响了LLMs的可信度和实际应用。现有的幻觉检测(HD)和事实验证(FV)方法各自为政,使用不同的数据集、评估指标和假设,导致难以直接比较和融合,阻碍了该领域的发展。

核心思路:UniFact的核心思路是建立一个统一的评估框架,能够动态地生成LLM的输出,并同时生成对应的事实性标签。通过这种方式,可以将HD和FV方法放在同一个平台上进行比较,从而发现它们的优势和劣势,并为未来的融合研究提供基础。

技术框架:UniFact框架主要包含以下几个模块:1) 数据生成模块:根据预定义的模板和知识库,生成包含事实信息的提示(prompt)。2) LLM推理模块:将生成的提示输入到待评估的LLM中,得到模型的输出。3) 事实标签生成模块:根据提示和知识库,自动生成模型输出的事实性标签(例如,正确或错误)。4) 评估模块:使用生成的数据和标签,对HD和FV方法进行评估和比较。

关键创新:UniFact的关键创新在于其动态生成数据和标签的能力。传统的HD和FV方法依赖于人工标注的数据集,成本高昂且难以覆盖所有可能的场景。UniFact通过自动化生成数据和标签,可以大大降低评估成本,并能够灵活地适应不同的LLM和应用场景。

关键设计:UniFact的关键设计包括:1) 提示模板的设计:需要设计能够有效激发LLM生成事实性内容的提示模板。2) 知识库的选择:需要选择可靠且全面的知识库,以保证生成的事实标签的准确性。3) 评估指标的选择:需要选择能够全面反映HD和FV方法性能的评估指标,例如准确率、召回率和F1值。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,没有单一的HD或FV方法在所有情况下都表现最佳,两者捕捉了事实错误的互补方面。集成HD和FV的混合方法在多个LLM家族上始终取得最先进的性能,验证了UniFact框架的有效性和统一研究方向的必要性。

🎯 应用场景

该研究成果可应用于提升大型语言模型的事实性和可靠性,例如在智能客服、内容生成、知识问答等领域。通过UniFact框架,可以更有效地评估和改进LLM的幻觉问题,提高用户信任度,促进LLM在实际场景中的应用。

📄 摘要(原文)

Large Language Models (LLMs) frequently exhibit hallucinations, generating content that appears fluent and coherent but is factually incorrect. Such errors undermine trust and hinder their adoption in real-world applications. To address this challenge, two distinct research paradigms have emerged: model-centric Hallucination Detection (HD) and text-centric Fact Verification (FV). Despite sharing the same goal, these paradigms have evolved in isolation, using distinct assumptions, datasets, and evaluation protocols. This separation has created a research schism that hinders their collective progress. In this work, we take a decisive step toward bridging this divide. We introduce UniFact, a unified evaluation framework that enables direct, instance-level comparison between FV and HD by dynamically generating model outputs and corresponding factuality labels. Through large-scale experiments across multiple LLM families and detection methods, we reveal three key findings: (1) No paradigm is universally superior; (2) HD and FV capture complementary facets of factual errors; and (3) hybrid approaches that integrate both methods consistently achieve state-of-the-art performance. Beyond benchmarking, we provide the first in-depth analysis of why FV and HD diverged, as well as empirical evidence supporting the need for their unification. The comprehensive experimental results call for a new, integrated research agenda toward unifying Hallucination Detection and Fact Verification in LLMs. We have open-sourced all the code, data, and baseline implementation at: https://github.com/oneal2000/UniFact/