ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models
作者: Yuzhe Gu, Ziwei Ji, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
分类: cs.CL, cs.AI
发布日期: 2024-07-05 (更新: 2024-12-19)
备注: Accepted by NeurIPS 2024. Dataset, code, and model are released at https://github.com/open-compass/ANAH
💡 一句话要点
ANAH-v2:提出迭代自训练框架,解决大语言模型分析性幻觉标注的规模化难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 幻觉检测 自训练 期望最大化算法 数据标注 自然语言推理 零样本学习
📋 核心要点
- 现有幻觉检测数据集规模和领域有限,人工标注成本高昂,标注器可靠性不足,难以有效监督LLM幻觉。
- 提出基于EM算法的迭代自训练框架,交替扩展幻觉标注数据集和训练更准确的幻觉标注器,实现规模化。
- 实验表明,仅7B参数的标注器超越GPT-4,在HaluEval和HalluQA上取得SOTA,并显著缓解LLM生成幻觉。
📝 摘要(中文)
大型语言模型(LLM)在跨领域和广泛应用的长篇问答任务中表现出幻觉现象。现有的幻觉检测和缓解数据集在领域和规模上都受到限制,由于高昂的人工成本和现有幻觉标注器可靠性不足,难以扩展。为了促进LLM幻觉的可扩展监督,本文提出了一种迭代自训练框架,该框架同时逐步扩大幻觉标注数据集,并提高幻觉标注器的准确性。基于期望最大化(EM)算法,在每次迭代中,该框架首先应用幻觉标注流程来标注一个扩展的数据集,然后在该数据集上训练一个更准确的幻觉标注器。这个新的幻觉标注器被用于下一次迭代的幻觉标注流程中。大量的实验结果表明,最终获得的仅有70亿参数的幻觉标注器超越了GPT-4的性能,并通过零样本推理在HaluEval和HalluQA上获得了新的最先进的幻觉检测结果。这种标注器不仅可以评估各种LLM在大规模数据集上的幻觉水平,还可以帮助缓解LLM生成的幻觉,在HaluEval上,自然语言推理(NLI)指标从25%提高到37%。
🔬 方法详解
问题定义:论文旨在解决大规模语言模型中幻觉现象的检测和缓解问题。现有方法依赖于人工标注数据集,成本高昂且难以扩展,同时现有幻觉标注器的准确性也存在不足,限制了其应用范围。
核心思路:论文的核心思路是利用自训练的方法,通过迭代地扩展标注数据集和训练更准确的幻觉标注器,从而实现幻觉检测和缓解的规模化。该方法基于期望最大化(EM)算法,交替进行数据集标注和模型训练,逐步提升标注质量和模型性能。
技术框架:整体框架包含以下两个主要阶段:1) 幻觉标注阶段:利用当前的幻觉标注器对大规模数据集进行标注,生成新的标注数据集。2) 标注器训练阶段:利用新生成的标注数据集训练新的幻觉标注器,提高其准确性。这两个阶段迭代进行,直至达到预定的迭代次数或性能指标。
关键创新:论文的关键创新在于提出了一种迭代自训练框架,能够同时扩展幻觉标注数据集和提高幻觉标注器的准确性。该框架摆脱了对大规模人工标注的依赖,降低了标注成本,并能够利用自训练的方式逐步提升标注质量和模型性能。
关键设计:框架基于EM算法,在每次迭代中,首先使用当前的幻觉标注器对大规模数据集进行标注,然后使用标注后的数据集训练新的幻觉标注器。损失函数的设计旨在提高标注器的准确性和泛化能力。具体的参数设置和网络结构的选择取决于具体的任务和数据集。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法训练的仅有70亿参数的幻觉标注器超越了GPT-4的性能,并在HaluEval和HalluQA上获得了新的SOTA。此外,该方法还能够显著缓解LLM生成的幻觉,在HaluEval上,自然语言推理(NLI)指标从25%提高到37%。
🎯 应用场景
该研究成果可应用于各种需要评估和缓解大型语言模型幻觉的场景,例如问答系统、对话系统、文本摘要等。通过使用该方法训练的幻觉标注器,可以有效地检测和缓解LLM生成的幻觉,提高LLM的可靠性和实用性,并促进LLM在更广泛领域的应用。
📄 摘要(原文)
Large language models (LLMs) exhibit hallucinations in long-form question-answering tasks across various domains and wide applications. Current hallucination detection and mitigation datasets are limited in domains and sizes, which struggle to scale due to prohibitive labor costs and insufficient reliability of existing hallucination annotators. To facilitate the scalable oversight of LLM hallucinations, this paper introduces an iterative self-training framework that simultaneously and progressively scales up the hallucination annotation dataset and improves the accuracy of the hallucination annotator. Based on the Expectation Maximization (EM) algorithm, in each iteration, the framework first applies a hallucination annotation pipeline to annotate a scaled dataset and then trains a more accurate hallucination annotator on the dataset. This new hallucination annotator is adopted in the hallucination annotation pipeline used for the next iteration. Extensive experimental results demonstrate that the finally obtained hallucination annotator with only 7B parameters surpasses the performance of GPT-4 and obtains new state-of-the-art hallucination detection results on HaluEval and HalluQA by zero-shot inference. Such an annotator can not only evaluate the hallucination levels of various LLMs on the large-scale dataset but also help to mitigate the hallucination of LLMs generations, with the Natural Language Inference (NLI) metric increasing from 25% to 37% on HaluEval.