HalluLens: LLM Hallucination Benchmark

📄 arXiv: 2504.17550v1 📥 PDF

作者: Yejin Bang, Ziwei Ji, Alan Schelten, Anthony Hartshorn, Tara Fowler, Cheng Zhang, Nicola Cancedda, Pascale Fung

分类: cs.CL, cs.AI

发布日期: 2025-04-24

备注: 42 pages


💡 一句话要点

提出HalluLens基准以解决大语言模型幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉评估 动态测试集 自然语言处理 生成式AI 评估基准 外在幻觉 内在幻觉

📋 核心要点

  1. 核心问题:现有的幻觉评估缺乏统一框架,定义和分类不一致,导致研究进展缓慢。
  2. 方法要点:提出清晰的幻觉分类法,并引入新的外在幻觉任务,动态生成数据以防止饱和。
  3. 实验或效果:通过分析现有基准,揭示其局限性,推动对幻觉的深入理解和研究。

📝 摘要(中文)

大语言模型(LLMs)常常生成与用户输入或训练数据不一致的响应,这种现象被称为“幻觉”。幻觉削弱了用户信任,阻碍了生成式人工智能系统的采用。本文提出了一个全面的幻觉基准,结合了新的外在评估任务和现有的内在评估任务,基于清晰的幻觉分类法。我们将LLM幻觉与“事实性”区分开来,提出了一个明确的分类法,以促进一致性并推动研究。基准包括动态测试集生成,以减少数据泄漏并确保对这种泄漏的鲁棒性,同时分析现有基准,突出其局限性和饱和性。

🔬 方法详解

问题定义:本文旨在解决大语言模型生成内容时的幻觉现象,现有方法在定义和评估幻觉时缺乏一致性,导致研究难以推进。

核心思路:论文提出了一种清晰的幻觉分类法,将幻觉分为外在和内在两类,并引入新的外在幻觉任务,通过动态生成测试集来减少数据泄漏的影响。

技术框架:整体架构包括幻觉分类法的建立、外在幻觉任务的设计和动态测试集生成模块,确保评估的有效性和鲁棒性。

关键创新:最重要的创新在于明确区分外在幻觉与内在幻觉,并提出动态生成测试集的方法,以应对数据泄漏问题,这与现有方法的静态评估形成鲜明对比。

关键设计:在设计中,采用了动态数据生成策略,确保测试集的多样性和新颖性,避免了因数据重复导致的评估饱和,同时在损失函数和评估指标上进行了针对性的优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HalluLens基准有效区分了外在和内在幻觉,动态生成的测试集在多次评估中表现出更高的鲁棒性,减少了数据泄漏的影响。与现有基准相比,HalluLens在评估一致性和有效性上有显著提升,推动了幻觉研究的深入。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和生成式AI等。通过提供一个标准化的幻觉评估基准,研究者和开发者可以更有效地识别和改进模型的幻觉问题,从而提升用户信任和系统的实际应用价值。

📄 摘要(原文)

Large language models (LLMs) often generate responses that deviate from user input or training data, a phenomenon known as "hallucination." These hallucinations undermine user trust and hinder the adoption of generative AI systems. Addressing hallucinations is essential for the advancement of LLMs. This paper introduces a comprehensive hallucination benchmark, incorporating both new extrinsic and existing intrinsic evaluation tasks, built upon clear taxonomy of hallucination. A major challenge in benchmarking hallucinations is the lack of a unified framework due to inconsistent definitions and categorizations. We disentangle LLM hallucination from "factuality," proposing a clear taxonomy that distinguishes between extrinsic and intrinsic hallucinations, to promote consistency and facilitate research. Extrinsic hallucinations, where the generated content is not consistent with the training data, are increasingly important as LLMs evolve. Our benchmark includes dynamic test set generation to mitigate data leakage and ensure robustness against such leakage. We also analyze existing benchmarks, highlighting their limitations and saturation. The work aims to: (1) establish a clear taxonomy of hallucinations, (2) introduce new extrinsic hallucination tasks, with data that can be dynamically regenerated to prevent saturation by leakage, (3) provide a comprehensive analysis of existing benchmarks, distinguishing them from factuality evaluations.