FABLES: Evaluating faithfulness and content selection in book-length summarization

📄 arXiv: 2404.01261v2 📥 PDF

作者: Yekyung Kim, Yapei Chang, Marzena Karpinska, Aparna Garimella, Varun Manjunatha, Kyle Lo, Tanya Goyal, Mohit Iyyer

分类: cs.CL, cs.AI

发布日期: 2024-04-01 (更新: 2024-09-30)

备注: preprint - 39 pages

期刊: 1st Conference on Language Modeling (COLM 2024)


💡 一句话要点

提出FABLES评估框架以解决长文档摘要的忠实性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本摘要 忠实性评估 内容选择 大型语言模型 人类评估 数据集构建 自动评估

📋 核心要点

  1. 现有的长文本摘要方法在忠实性评估方面存在不足,尤其是在复杂叙事中难以验证信息的准确性。
  2. 本文提出FABLES评估框架,通过人类注释者对LLM生成的摘要进行系统评估,以提高忠实性和内容选择的准确性。
  3. 实验结果显示,Claude-3-Opus在忠实性评估中表现优异,而现有的自动评估方法与人类注释的相关性较低,指出了未来研究的方向。

📝 摘要(中文)

尽管长文本大型语言模型(LLMs)在技术上能够总结超过10万字的文档,但文档的长度和复杂性限制了对输入依赖特征如忠实性的评估。本文首次对LLM生成的小说书籍摘要进行大规模人类评估,重点关注忠实性和内容选择。我们收集了FABLES数据集,包含3158条关于26本书的摘要声明的注释,结果表明Claude-3-Opus在忠实性方面显著优于所有闭源LLM,而开源的Mixtral与GPT-3.5-Turbo相当。分析显示,大多数不忠实的声明与事件和角色状态相关,且通常需要间接推理来验证。我们还探讨了内容选择错误,开发了与叙事关键元素相关的遗漏错误类型。

🔬 方法详解

问题定义:本文旨在解决长文本摘要中忠实性和内容选择的评估问题。现有方法在处理复杂叙事时,难以准确验证生成摘要的真实性和完整性。

核心思路:通过构建FABLES数据集,进行大规模人类评估,确保注释者在注释前已完整阅读书籍,从而提高评估的可靠性和准确性。

技术框架:研究包括数据收集、注释过程和结果分析三个主要阶段。首先,收集2023和2024年出版的书籍摘要;其次,组织专业注释者进行评估;最后,分析注释结果以评估不同LLM的表现。

关键创新:FABLES数据集的构建及其系统的评估方法是本文的核心创新,与现有方法相比,提供了更为可靠的忠实性评估机制。

关键设计:在注释过程中,注释者需对3158条声明进行评估,研究还开发了多种LLM评估器,但发现其与人类注释的相关性较低,尤其是在识别不忠实声明方面。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,Claude-3-Opus在忠实性评估中显著优于所有闭源LLM,且开源的Mixtral与GPT-3.5-Turbo表现相当。分析表明,大多数不忠实声明涉及事件和角色状态,且需要间接推理来验证。

🎯 应用场景

该研究的潜在应用领域包括图书摘要生成、教育领域的文本理解以及信息检索系统。通过提高摘要的忠实性和内容选择的准确性,能够为用户提供更高质量的信息获取体验,未来可能影响长文本处理的多个领域。

📄 摘要(原文)

While long-context large language models (LLMs) can technically summarize book-length documents (>100K tokens), the length and complexity of the documents have so far prohibited evaluations of input-dependent aspects like faithfulness. In this paper, we conduct the first large-scale human evaluation of faithfulness and content selection on LLM-generated summaries of fictional books. Our study mitigates the issue of data contamination by focusing on summaries of books published in 2023 or 2024, and we hire annotators who have fully read each book prior to the annotation task to minimize cost and cognitive burden. We collect FABLES, a dataset of annotations on 3,158 claims made in LLM-generated summaries of 26 books, at a cost of $5.2K USD, which allows us to rank LLM summarizers based on faithfulness: Claude-3-Opus significantly outperforms all closed-source LLMs, while the open-source Mixtral is on par with GPT-3.5-Turbo. An analysis of the annotations reveals that most unfaithful claims relate to events and character states, and they generally require indirect reasoning over the narrative to invalidate. While LLM-based auto-raters have proven reliable for factuality and coherence in other settings, we implement several LLM raters of faithfulness and find that none correlates strongly with human annotations, especially with regard to detecting unfaithful claims. Our experiments suggest that detecting unfaithful claims is an important future direction not only for summarization evaluation but also as a testbed for long-context understanding. Finally, we move beyond faithfulness by exploring content selection errors in book-length summarization: we develop a typology of omission errors related to crucial narrative elements and also identify a systematic over-emphasis on events occurring towards the end of the book.