ANAH: Analytical Annotation of Hallucinations in Large Language Models
作者: Ziwei Ji, Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
分类: cs.CL, cs.AI
发布日期: 2024-05-30
备注: Accepted by ACL 2024
💡 一句话要点
ANAH:提出用于大语言模型幻觉分析标注的双语数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 幻觉检测 数据集构建 人工标注 生成式问答
📋 核心要点
- 现有大语言模型存在幻觉问题,缺乏细粒度的幻觉评估方法,阻碍了模型改进。
- ANAH数据集通过人工标注,提供句子级别的幻觉类型判断和内容纠正,实现细粒度分析。
- 实验表明,基于ANAH训练的生成式标注器性能超越开源LLM和GPT-3.5,逼近GPT-4水平。
📝 摘要(中文)
减少大语言模型(LLMs)的“幻觉”问题对其广泛应用至关重要。对幻觉进行全面和细粒度的测量是解决此问题的关键第一步,但社区对此探索不足。因此,我们提出了ANAH,一个双语数据集,用于对生成式问答中LLM的幻觉进行分析性标注。我们数据集中的每个答案句子都经过严格的标注,包括检索参考片段、判断幻觉类型以及纠正幻觉内容。ANAH由约1.2万个句子级别的标注组成,涵盖了约4.3k个LLM响应,涉及700多个主题,由人工参与的流水线构建。由于幻觉标注的细粒度,我们可以定量地确认LLM的幻觉在答案中逐渐累积,并使用ANAH来训练和评估幻觉标注器。我们对生成式和判别式标注器进行了广泛的实验研究,结果表明,虽然当前开源LLM在细粒度的幻觉标注方面存在困难,但使用ANAH训练的生成式标注器可以超越所有开源LLM和GPT-3.5,获得与GPT-4相当的性能,并在未见过的问题上表现出更好的泛化能力。
🔬 方法详解
问题定义:论文旨在解决大语言模型中普遍存在的“幻觉”问题,即模型生成不真实或与事实相悖的内容。现有方法缺乏对幻觉进行细粒度分析和标注的数据集,难以有效评估和改进模型的幻觉生成能力。现有的幻觉检测方法通常依赖于人工评估,成本高昂且难以规模化。
核心思路:论文的核心思路是通过构建一个高质量、细粒度的幻觉标注数据集ANAH,为训练和评估幻觉检测模型提供基础。ANAH数据集包含句子级别的标注,不仅判断是否存在幻觉,还标注幻觉的类型并提供纠正后的内容。通过人工参与的流水线,保证标注的准确性和一致性。
技术框架:ANAH的构建流程主要包括以下几个阶段:1) 从多个来源收集问题和LLM的回答;2) 对于每个回答句子,人工检索参考片段;3) 判断该句子是否存在幻觉,如果存在,标注幻觉类型;4) 对幻觉内容进行纠正。整个过程采用人工参与的流水线,确保标注质量。论文还利用ANAH数据集训练和评估了生成式和判别式幻觉标注器。
关键创新:ANAH数据集的关键创新在于其细粒度的标注方式,不仅判断是否存在幻觉,还标注幻觉的类型并提供纠正后的内容。这种细粒度的标注信息可以更全面地了解LLM的幻觉生成机制,并为训练更有效的幻觉检测和纠正模型提供支持。此外,ANAH是一个双语数据集,支持对中文和英文LLM的幻觉进行分析。
关键设计:ANAH数据集的构建过程中,采用了严格的标注规范和质量控制流程,以确保标注的准确性和一致性。标注人员需要经过专业的培训,并遵循详细的标注指南。为了提高标注效率,采用了人工参与的流水线,将标注任务分解为多个子任务,并分配给不同的标注人员。论文还设计了专门的评估指标,用于评估幻觉标注器的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用ANAH训练的生成式标注器在幻觉检测任务中表现出色,超越了所有开源LLM和GPT-3.5,获得了与GPT-4相当的性能。此外,该标注器在未见过的问题上表现出更好的泛化能力,表明ANAH数据集具有良好的训练效果。
🎯 应用场景
该研究成果可应用于提升大语言模型在问答、内容生成等任务中的可靠性和准确性。通过训练更有效的幻觉检测和纠正模型,可以减少模型生成不实信息的风险,提高用户信任度。此外,ANAH数据集可作为评估和比较不同LLM幻觉生成能力的基准。
📄 摘要(原文)
Reducing the `$\textit{hallucination}$' problem of Large Language Models (LLMs) is crucial for their wide applications. A comprehensive and fine-grained measurement of the hallucination is the first key step for the governance of this issue but is under-explored in the community. Thus, we present $\textbf{ANAH}$, a bilingual dataset that offers $\textbf{AN}$alytical $\textbf{A}$nnotation of $\textbf{H}$allucinations in LLMs within Generative Question Answering. Each answer sentence in our dataset undergoes rigorous annotation, involving the retrieval of a reference fragment, the judgment of the hallucination type, and the correction of hallucinated content. ANAH consists of ~12k sentence-level annotations for ~4.3k LLM responses covering over 700 topics, constructed by a human-in-the-loop pipeline. Thanks to the fine granularity of the hallucination annotations, we can quantitatively confirm that the hallucinations of LLMs progressively accumulate in the answer and use ANAH to train and evaluate hallucination annotators. We conduct extensive experiments on studying generative and discriminative annotators and show that, although current open-source LLMs have difficulties in fine-grained hallucination annotation, the generative annotator trained with ANAH can surpass all open-source LLMs and GPT-3.5, obtain performance competitive with GPT-4, and exhibits better generalization ability on unseen questions.