HALoGEN: Fantastic LLM Hallucinations and Where to Find Them
作者: Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi
分类: cs.CL, cs.AI
发布日期: 2025-01-14
备注: Preprint
💡 一句话要点
HALoGEN:构建LLM幻觉基准,揭示并分类生成模型的事实性错误。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 幻觉 基准测试 自动评估 知识验证
📋 核心要点
- 现有LLM虽然文本生成能力强大,但普遍存在幻觉问题,即生成内容与事实不符,而人工评估成本高昂。
- HALoGEN通过构建包含大量提示和自动验证器的基准,将LLM生成内容分解为原子单元并进行事实核查。
- 实验表明,即使是最先进的LLM也存在显著的幻觉现象,并提出了基于错误来源的幻觉分类方法。
📝 摘要(中文)
生成式大语言模型(LLM)在生成高质量流畅文本方面表现出色,但也存在幻觉问题,即生成与既定世界知识或输入上下文不符的陈述。然而,衡量幻觉具有挑战性,因为人工验证模型生成内容既昂贵又耗时。本文发布了HALoGEN,一个全面的幻觉基准,包含:(1)10923个用于生成模型的提示,涵盖编程、科学归因和摘要等九个领域;(2)针对每个用例的自动高精度验证器,将LLM生成内容分解为原子单元,并针对高质量知识源验证每个单元。我们使用该框架评估了来自14个语言模型的约15万个生成结果,发现即使是性能最佳的模型也存在大量幻觉(有时高达86%的生成原子事实,具体取决于领域)。我们进一步定义了一种新颖的LLM幻觉错误分类,基于它们是可能源于对训练数据的不正确回忆(A类错误)、训练数据中的不正确知识(B类错误)还是捏造(C类错误)。我们希望我们的框架能够为研究生成模型产生幻觉的原因奠定基础,并促进可信赖的大语言模型的发展。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)中普遍存在的幻觉问题,即模型生成与事实不符的内容。现有方法依赖人工评估,成本高昂且效率低下,难以系统性地分析和解决幻觉问题。因此,需要一种自动化的、可扩展的方法来评估和理解LLM的幻觉现象。
核心思路:论文的核心思路是构建一个全面的幻觉基准(HALoGEN),该基准包含大量提示和自动验证器。通过将LLM的生成内容分解为原子单元,并利用自动验证器针对高质量知识源进行事实核查,从而实现对LLM幻觉的自动化评估。这种方法降低了评估成本,并允许对不同类型的幻觉进行系统性分析。
技术框架:HALoGEN框架主要包含以下几个模块:1) 提示生成模块:生成涵盖多个领域(如编程、科学归因、摘要等)的大量提示,用于驱动LLM生成内容。2) LLM生成模块:使用不同的LLM模型对提示进行生成,得到待评估的文本。3) 原子单元分解模块:将LLM生成的文本分解为原子单元,例如单个事实或声明。4) 自动验证模块:针对每个原子单元,使用自动验证器(例如基于知识图谱或信息检索的系统)进行事实核查。5) 幻觉分类模块:根据幻觉的来源,将其分为A类(错误回忆)、B类(错误知识)和C类(捏造)三种类型。
关键创新:HALoGEN的关键创新在于:1) 构建了一个大规模、多领域的幻觉基准,为LLM的幻觉研究提供了丰富的数据资源。2) 提出了自动化的幻觉评估方法,降低了评估成本,提高了评估效率。3) 定义了一种新颖的幻觉分类方法,有助于理解幻觉的来源和性质。与现有方法相比,HALoGEN更加全面、自动化和系统化。
关键设计:HALoGEN的关键设计包括:1) 提示的多样性:提示涵盖了多个领域,并采用了不同的生成策略,以确保基准的代表性。2) 自动验证器的精度:自动验证器采用了多种技术,例如知识图谱查询、信息检索和自然语言推理,以提高验证的准确性。3) 幻觉分类的细粒度:幻觉分类考虑了幻觉的来源,有助于深入理解LLM的知识表示和推理能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的LLM也存在显著的幻觉现象,某些领域高达86%的生成原子事实存在错误。不同模型在不同领域的幻觉率存在差异,表明幻觉与模型的架构、训练数据和任务类型有关。此外,实验还验证了提出的幻觉分类方法的有效性,为理解幻觉的来源提供了新的视角。
🎯 应用场景
HALoGEN可应用于评估和改进大语言模型的可靠性和可信度。通过该基准,研究人员可以系统地分析不同模型的幻觉现象,并开发相应的缓解策略。此外,HALoGEN还可以用于训练更可靠的LLM,例如通过对抗训练或知识增强等方法。最终,该研究有助于构建更值得信赖的AI系统,并促进LLM在各个领域的广泛应用。
📄 摘要(原文)
Despite their impressive ability to generate high-quality and fluent text, generative large language models (LLMs) also produce hallucinations: statements that are misaligned with established world knowledge or provided input context. However, measuring hallucination can be challenging, as having humans verify model generations on-the-fly is both expensive and time-consuming. In this work, we release HALoGEN, a comprehensive hallucination benchmark consisting of: (1) 10,923 prompts for generative models spanning nine domains including programming, scientific attribution, and summarization, and (2) automatic high-precision verifiers for each use case that decompose LLM generations into atomic units, and verify each unit against a high-quality knowledge source. We use this framework to evaluate ~150,000 generations from 14 language models, finding that even the best-performing models are riddled with hallucinations (sometimes up to 86% of generated atomic facts depending on the domain). We further define a novel error classification for LLM hallucinations based on whether they likely stem from incorrect recollection of training data (Type A errors), or incorrect knowledge in training data (Type B errors), or are fabrication (Type C errors). We hope our framework provides a foundation to enable the principled study of why generative models hallucinate, and advances the development of trustworthy large language models.