Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends

📄 arXiv: 2406.03487v1 📥 PDF

作者: Sanjana Ramprasad, Elisa Ferracane, Zachary C. Lipton

分类: cs.CL, cs.AI

发布日期: 2024-06-05

备注: Accepted at ACL 2024


💡 一句话要点

分析LLM在对话摘要中的行为,揭示情境性幻觉趋势

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话摘要 大型语言模型 幻觉检测 情境性推断 错误分类 Prompt工程

📋 核心要点

  1. 现有对话摘要评估主要集中于BART模型,缺乏对LLM忠实性的深入研究,尤其是在幻觉问题上。
  2. 论文通过人工标注和错误分类,揭示了LLM在对话摘要中产生“情境性推断”幻觉的趋势。
  3. 提出了两种基于提示的细粒度错误检测方法,显著优于现有指标,尤其是在识别情境性推断方面。

📝 摘要(中文)

大型语言模型(LLM)的最新进展显著提升了摘要系统的能力。然而,幻觉问题仍然存在。虽然之前的工作已经广泛评估了LLM在新闻领域的表现,但对话摘要的评估主要集中在基于BART的模型上,这导致我们对LLM的忠实性理解存在差距。本文对LLM在对话摘要中的忠实性进行了基准测试,使用人工标注,重点识别和分类跨度级别的不一致性。具体来说,我们关注两个著名的LLM:GPT-4和Alpaca-13B。我们的评估揭示了构成幻觉的微妙之处:LLM经常生成看似合理的推论,这些推论由对话中的情境证据支持,但缺乏直接证据,这种模式在较旧的模型中不太常见。我们提出了一种改进的错误分类法,创造了“情境性推断”类别来归类这些LLM行为,并发布了数据集。使用我们的分类法,我们比较了LLM和较旧的微调模型之间的行为差异。此外,我们系统地评估了自动错误检测方法在LLM摘要上的有效性,发现它们难以检测到这些细微的错误。为了解决这个问题,我们引入了两种基于提示的方法来进行细粒度的错误检测,这些方法优于现有的指标,尤其是在识别“情境性推断”方面。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在对话摘要任务中存在的幻觉问题,特别是那种基于对话上下文进行合理推断但缺乏直接证据支持的“情境性推断”。现有方法难以有效检测和分类这种细微的幻觉,导致摘要质量下降。

核心思路:核心思路是通过人工标注构建高质量的对话摘要数据集,并设计一种新的错误分类体系,专门用于识别和区分“情境性推断”类型的幻觉。此外,利用prompt工程,设计更有效的自动错误检测方法。

技术框架:论文主要包含以下几个阶段:1) 数据收集和标注:构建包含对话和摘要的数据集,并由人工标注员进行错误标注,重点关注幻觉类型。2) 错误分类体系构建:提出一种新的错误分类体系,将幻觉分为多种类型,包括“情境性推断”。3) 模型评估:使用标注的数据集评估LLM(GPT-4, Alpaca-13B)和传统模型(BART)的摘要质量和幻觉情况。4) 自动错误检测方法设计:提出基于prompt的自动错误检测方法,并与现有方法进行比较。

关键创新:关键创新在于:1) 提出了“情境性推断”这一新的幻觉类型,更准确地描述了LLM在对话摘要中的行为。2) 设计了基于prompt的自动错误检测方法,能够更有效地识别这种细微的幻觉。

关键设计:论文的关键设计包括:1) 详细的标注指南,确保人工标注的一致性和准确性。2) 精心设计的prompt,用于引导LLM进行错误检测,并提取错误类型信息。3) 实验中对比了多种基线模型和评估指标,以全面评估所提出方法的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4和Alpaca-13B等LLM更容易产生“情境性推断”类型的幻觉。提出的基于prompt的自动错误检测方法在识别这种幻觉方面显著优于现有指标。例如,在特定数据集上,该方法在识别“情境性推断”方面的F1值比现有最佳方法提高了10%以上。

🎯 应用场景

该研究成果可应用于改进对话摘要系统,提高摘要的忠实性和可靠性。通过更准确地识别和减少“情境性推断”类型的幻觉,可以提升用户对摘要信息的信任度,并为下游任务(如问答、信息检索)提供更可靠的输入。未来,该研究可以扩展到其他文本生成任务,例如机器翻译和故事生成。

📄 摘要(原文)

Recent advancements in large language models (LLMs) have considerably advanced the capabilities of summarization systems. However, they continue to face concerns about hallucinations. While prior work has evaluated LLMs extensively in news domains, most evaluation of dialogue summarization has focused on BART-based models, leaving a gap in our understanding of their faithfulness. Our work benchmarks the faithfulness of LLMs for dialogue summarization, using human annotations and focusing on identifying and categorizing span-level inconsistencies. Specifically, we focus on two prominent LLMs: GPT-4 and Alpaca-13B. Our evaluation reveals subtleties as to what constitutes a hallucination: LLMs often generate plausible inferences, supported by circumstantial evidence in the conversation, that lack direct evidence, a pattern that is less prevalent in older models. We propose a refined taxonomy of errors, coining the category of "Circumstantial Inference" to bucket these LLM behaviors and release the dataset. Using our taxonomy, we compare the behavioral differences between LLMs and older fine-tuned models. Additionally, we systematically assess the efficacy of automatic error detection methods on LLM summaries and find that they struggle to detect these nuanced errors. To address this, we introduce two prompt-based approaches for fine-grained error detection that outperform existing metrics, particularly for identifying "Circumstantial Inference."