HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

作者: Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi

分类: cs.CL, cs.AI

发布日期: 2025-01-14

备注: Preprint

💡 一句话要点

HALoGEN：构建LLM幻觉基准，揭示并分类生成模型的事实性错误。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉 基准测试 自动评估 知识验证

📋 核心要点

现有LLM虽然文本生成能力强大，但普遍存在幻觉问题，即生成内容与事实不符，而人工评估成本高昂。
HALoGEN通过构建包含大量提示和自动验证器的基准，将LLM生成内容分解为原子单元并进行事实核查。
实验表明，即使是最先进的LLM也存在显著的幻觉现象，并提出了基于错误来源的幻觉分类方法。

📝 摘要（中文）

生成式大语言模型（LLM）在生成高质量流畅文本方面表现出色，但也存在幻觉问题，即生成与既定世界知识或输入上下文不符的陈述。然而，衡量幻觉具有挑战性，因为人工验证模型生成内容既昂贵又耗时。本文发布了HALoGEN，一个全面的幻觉基准，包含：（1）10923个用于生成模型的提示，涵盖编程、科学归因和摘要等九个领域；（2）针对每个用例的自动高精度验证器，将LLM生成内容分解为原子单元，并针对高质量知识源验证每个单元。我们使用该框架评估了来自14个语言模型的约15万个生成结果，发现即使是性能最佳的模型也存在大量幻觉（有时高达86%的生成原子事实，具体取决于领域）。我们进一步定义了一种新颖的LLM幻觉错误分类，基于它们是可能源于对训练数据的不正确回忆（A类错误）、训练数据中的不正确知识（B类错误）还是捏造（C类错误）。我们希望我们的框架能够为研究生成模型产生幻觉的原因奠定基础，并促进可信赖的大语言模型的发展。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLM）中普遍存在的幻觉问题，即模型生成与事实不符的内容。现有方法依赖人工评估，成本高昂且效率低下，难以系统性地分析和解决幻觉问题。因此，需要一种自动化的、可扩展的方法来评估和理解LLM的幻觉现象。

核心思路：论文的核心思路是构建一个全面的幻觉基准（HALoGEN），该基准包含大量提示和自动验证器。通过将LLM的生成内容分解为原子单元，并利用自动验证器针对高质量知识源进行事实核查，从而实现对LLM幻觉的自动化评估。这种方法降低了评估成本，并允许对不同类型的幻觉进行系统性分析。

技术框架：HALoGEN框架主要包含以下几个模块：1) 提示生成模块：生成涵盖多个领域（如编程、科学归因、摘要等）的大量提示，用于驱动LLM生成内容。2) LLM生成模块：使用不同的LLM模型对提示进行生成，得到待评估的文本。3) 原子单元分解模块：将LLM生成的文本分解为原子单元，例如单个事实或声明。4) 自动验证模块：针对每个原子单元，使用自动验证器（例如基于知识图谱或信息检索的系统）进行事实核查。5) 幻觉分类模块：根据幻觉的来源，将其分为A类（错误回忆）、B类（错误知识）和C类（捏造）三种类型。

关键创新：HALoGEN的关键创新在于：1) 构建了一个大规模、多领域的幻觉基准，为LLM的幻觉研究提供了丰富的数据资源。2) 提出了自动化的幻觉评估方法，降低了评估成本，提高了评估效率。3) 定义了一种新颖的幻觉分类方法，有助于理解幻觉的来源和性质。与现有方法相比，HALoGEN更加全面、自动化和系统化。

关键设计：HALoGEN的关键设计包括：1) 提示的多样性：提示涵盖了多个领域，并采用了不同的生成策略，以确保基准的代表性。2) 自动验证器的精度：自动验证器采用了多种技术，例如知识图谱查询、信息检索和自然语言推理，以提高验证的准确性。3) 幻觉分类的细粒度：幻觉分类考虑了幻觉的来源，有助于深入理解LLM的知识表示和推理能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的LLM也存在显著的幻觉现象，某些领域高达86%的生成原子事实存在错误。不同模型在不同领域的幻觉率存在差异，表明幻觉与模型的架构、训练数据和任务类型有关。此外，实验还验证了提出的幻觉分类方法的有效性，为理解幻觉的来源提供了新的视角。

🎯 应用场景

HALoGEN可应用于评估和改进大语言模型的可靠性和可信度。通过该基准，研究人员可以系统地分析不同模型的幻觉现象，并开发相应的缓解策略。此外，HALoGEN还可以用于训练更可靠的LLM，例如通过对抗训练或知识增强等方法。最终，该研究有助于构建更值得信赖的AI系统，并促进LLM在各个领域的广泛应用。

📄 摘要（原文）

Despite their impressive ability to generate high-quality and fluent text, generative large language models (LLMs) also produce hallucinations: statements that are misaligned with established world knowledge or provided input context. However, measuring hallucination can be challenging, as having humans verify model generations on-the-fly is both expensive and time-consuming. In this work, we release HALoGEN, a comprehensive hallucination benchmark consisting of: (1) 10,923 prompts for generative models spanning nine domains including programming, scientific attribution, and summarization, and (2) automatic high-precision verifiers for each use case that decompose LLM generations into atomic units, and verify each unit against a high-quality knowledge source. We use this framework to evaluate ~150,000 generations from 14 language models, finding that even the best-performing models are riddled with hallucinations (sometimes up to 86% of generated atomic facts depending on the domain). We further define a novel error classification for LLM hallucinations based on whether they likely stem from incorrect recollection of training data (Type A errors), or incorrect knowledge in training data (Type B errors), or are fabrication (Type C errors). We hope our framework provides a foundation to enable the principled study of why generative models hallucinate, and advances the development of trustworthy large language models.

HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理