LCFO: Long Context and Long Form Output Dataset and Benchmarking

📄 arXiv: 2412.08268v3 📥 PDF

作者: Marta R. Costa-jussà, Pierre Andrews, Mariano Coria Meglioli, Joy Chen, Joe Chuang, David Dale, Christophe Ropers, Alexandre Mourachko, Eduardo Sánchez, Holger Schwenk, Tuan Tran, Arina Turkatenko, Carleigh Wood

分类: cs.CL

发布日期: 2024-12-11 (更新: 2025-07-09)


💡 一句话要点

提出LCFO基准,用于评估长文本摘要和摘要扩展能力,并分析了现有LLM的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本摘要 摘要扩展 基准数据集 大型语言模型 可控生成 QA对齐 文本生成 评估指标

📋 核心要点

  1. 现有方法在处理长文本摘要和摘要扩展任务时,缺乏统一的评估基准和可控的生成框架。
  2. LCFO基准通过提供不同长度的摘要和QA对齐,构建了一个可控的摘要扩展评估框架。
  3. 实验表明,GPT-4o-mini在LCFO基准上表现出色,尤其是在短摘要生成方面,甚至超越了人工水平。

📝 摘要(中文)

本文提出了长文本和长形式输出(LCFO)基准,这是一个新颖的评估框架,用于评估跨不同领域的渐进式摘要和摘要扩展能力。LCFO包含长输入文档(平均长度5k字),每个文档都带有三个不同长度的摘要(输入文本的20%、10%和5%),以及大约15个与输入内容相关的问题和答案(QA)。值得注意的是,LCFO还提供了特定QA对与7个领域中相应摘要之间的对齐。提供不同长度摘要的主要动机是建立一个可控的框架,用于从较短的输入生成长文本,即摘要扩展。为了建立摘要和摘要扩展的评估指标框架,我们提供了人工生成输出的人工评估分数,以及来自各种最先进的大型语言模型(LLM)的结果。GPT-4o-mini在摘要和摘要扩展任务中均获得了自动系统中的最佳人工评分(分别约为+10%和+20%)。在短摘要的情况下,它甚至超过了人工输出质量(约为+7%)。总体而言,自动指标与人工评估分数的相关性较低(约为0.4),但在特定评估方面(如流畅性和归因)的相关性适中(约为0.6)。

🔬 方法详解

问题定义:论文旨在解决长文本摘要和摘要扩展任务中缺乏统一、可控的评估基准的问题。现有方法难以评估模型在不同摘要长度下的性能,也缺乏对摘要扩展过程的细粒度控制和评估。

核心思路:论文的核心思路是构建一个包含长文本输入、不同长度摘要以及QA对齐的基准数据集LCFO。通过提供不同长度的摘要,可以评估模型在不同压缩比下的摘要能力。QA对齐则有助于评估摘要的忠实度和信息覆盖度。

技术框架:LCFO基准包含以下几个关键组成部分: 1. 长文本输入:平均长度为5k字的长文档。 2. 不同长度的摘要:每个文档对应三个不同长度的摘要,分别是输入文本的20%、10%和5%。 3. QA对:每个文档对应大约15个与输入内容相关的问题和答案。 4. QA对齐:提供特定QA对与相应摘要之间的对齐信息。

关键创新:LCFO基准的关键创新在于其可控的摘要扩展评估框架。通过提供不同长度的摘要,可以评估模型从短摘要生成长摘要的能力,从而实现对摘要扩展过程的细粒度控制和评估。此外,QA对齐信息也有助于评估摘要的忠实度和信息覆盖度。

关键设计:LCFO基准在数据收集和处理方面进行了一些关键设计。例如,为了保证摘要的质量,采用了人工编写和校对的方式。为了保证QA对的质量,采用了众包的方式进行收集,并进行了人工审核。此外,为了保证QA对齐的准确性,采用了人工标注的方式进行对齐。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,GPT-4o-mini在LCFO基准上表现出色,在摘要和摘要扩展任务中均获得了自动系统中的最佳人工评分(分别约为+10%和+20%)。在短摘要的情况下,它甚至超过了人工输出质量(约为+7%)。自动指标与人工评估分数的相关性较低(约为0.4),但在特定评估方面(如流畅性和归因)的相关性适中(约为0.6)。

🎯 应用场景

LCFO基准可以应用于评估和提升各种长文本处理任务,例如自动摘要、文本生成、信息检索和问答系统。该基准的建立有助于推动长文本处理领域的研究进展,并为开发更智能、更高效的文本处理系统提供支持。未来,可以基于LCFO基准开发更细粒度的评估指标和更有效的模型训练方法。

📄 摘要(原文)

This paper presents the Long Context and Form Output (LCFO) benchmark, a novel evaluation framework for assessing gradual summarization and summary expansion capabilities across diverse domains. LCFO consists of long input documents (5k words average length), each of which comes with three summaries of different lengths (20%, 10%, and 5% of the input text), as well as approximately 15 questions and answers (QA) related to the input content. Notably, LCFO also provides alignments between specific QA pairs and corresponding summaries in 7 domains. The primary motivation behind providing summaries of different lengths is to establish a controllable framework for generating long texts from shorter inputs, i.e. summary expansion. To establish an evaluation metric framework for summarization and summary expansion, we provide human evaluation scores for human-generated outputs, as well as results from various state-of-the-art large language models (LLMs). GPT-4o-mini achieves best human scores among automatic systems in both summarization and summary expansion tasks (~ +10% and +20%, respectively). It even surpasses human output quality in the case of short summaries (~ +7%). Overall automatic metrics achieve low correlations with human evaluation scores (~ 0.4) but moderate correlation on specific evaluation aspects such as fluency and attribution (~ 0.6).