From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization

📄 arXiv: 2410.13961v2 📥 PDF

作者: Catarina G. Belem, Pouya Pezeshkpour, Hayate Iso, Seiji Maekawa, Nikita Bhutani, Estevam Hruschka

分类: cs.CL

发布日期: 2024-10-17 (更新: 2025-04-26)

备注: NAACL 2025 - Findings


💡 一句话要点

提出多文档摘要中的幻觉问题研究以提升LLM性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多文档摘要 大型语言模型 幻觉现象 信息重复 数据集构建 后处理方法 性能评估

📋 核心要点

  1. 现有研究主要集中于单文档任务的幻觉现象,而多文档摘要中的幻觉问题尚未得到充分探讨。
  2. 本文通过创建新的多文档基准,系统性评估LLMs在多文档摘要中幻觉的表现及其特征。
  3. 实验结果显示,LLMs生成的摘要中高达75%的内容为幻觉,且后处理方法的效果有限,亟需更有效的解决方案。

📝 摘要(中文)

尽管许多研究已探讨并减少了大型语言模型(LLMs)在单文档任务中的幻觉现象,但在多文档摘要(MDS)任务中的幻觉研究仍然相对缺乏。本文探讨了在处理多文档时,信息重复和多样性等挑战如何影响模型输出。我们创建了两个新的多文档基准,评估了5个LLM的表现,发现平均75%的生成内容为幻觉,且幻觉现象在摘要末尾更为常见。我们还发现,gpt-3.5-turbo和GPT-4o在总结虚构信息时,仍有79.35%和44%的概率生成相关摘要,显示出其内容虚构的倾向。手动评估发现,大多数错误源于未能遵循指令或生成过于通用的见解。基于这些观察,我们研究了简单的后处理基线在减轻幻觉方面的有效性,但效果仅为中等。我们的结果强调了在MDS中系统性减轻幻觉的必要性,并在github上发布了数据集和代码。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在多文档摘要任务中产生幻觉的问题。现有方法在处理多文档时面临信息重复和多样性等挑战,导致生成内容的准确性降低。

核心思路:通过创建新的多文档基准,评估LLMs在多文档摘要中的表现,分析幻觉现象的特征,并探索后处理方法的有效性。

技术框架:研究首先构建了两个多文档基准,接着对5个LLMs进行评估,最后分析生成内容的幻觉特征和后处理方法的效果。

关键创新:本文的主要创新在于首次系统性地研究了LLMs在多文档摘要中的幻觉现象,并提出了新的基准来评估这一问题。与现有方法相比,本文提供了更深入的分析和实证数据。

关键设计:在实验中,使用了现有的新闻和对话数据集,并对其进行了主题特定的标注。评估过程中,手动分析了700多个见解,以识别错误来源,并探讨了简单后处理方法的效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,LLMs生成的摘要中高达75%的内容为幻觉,且在总结虚构信息时,gpt-3.5-turbo和GPT-4o分别有79.35%和44%的概率生成相关摘要。这一发现强调了当前LLMs在多文档摘要任务中的局限性,并指出了改进的必要性。

🎯 应用场景

该研究的潜在应用领域包括新闻摘要、信息检索和对话系统等。通过提升多文档摘要的准确性,能够为用户提供更可靠的信息提取服务,进而提高信息获取的效率和质量。未来,该研究可能推动更先进的LLM设计,以减少幻觉现象的发生。

📄 摘要(原文)

Although many studies have investigated and reduced hallucinations in large language models (LLMs) for single-document tasks, research on hallucination in multi-document summarization (MDS) tasks remains largely unexplored. Specifically, it is unclear how the challenges arising from handling multiple documents (e.g., repetition and diversity of information) affect models outputs. In this work, we investigate how hallucinations manifest in LLMs when summarizing topic-specific information from multiple documents. Since no benchmarks exist for investigating hallucinations in MDS, we use existing news and conversation datasets, annotated with topic-specific insights, to create two novel multi-document benchmarks. When evaluating 5 LLMs on our benchmarks, we observe that on average, up to 75% of the content in LLM-generated summary is hallucinated, with hallucinations more likely to occur towards the end of the summaries. Moreover, when summarizing non-existent topic-related information, gpt-3.5-turbo and GPT-4o still generate summaries about 79.35% and 44% of the time, raising concerns about their tendency to fabricate content. To understand the characteristics of these hallucinations, we manually evaluate 700+ insights and find that most errors stem from either failing to follow instructions or producing overly generic insights. Motivated by these observations, we investigate the efficacy of simple post-hoc baselines in mitigating hallucinations but find them only moderately effective. Our results underscore the need for more effective approaches to systematically mitigate hallucinations in MDS. We release our dataset and code at github.com/megagonlabs/Hallucination_MDS.