Unstructured Evidence Attribution for Long Context Query Focused Summarization
作者: Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
分类: cs.CL, cs.IR
发布日期: 2025-02-20 (更新: 2025-10-30)
备注: EMNLP 2025 Main; 29 pages; 24 figures; 8 tables
💡 一句话要点
提出SUnsET数据集和非结构化证据抽取方法,提升长文本问答式摘要的真实性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本摘要 证据抽取 非结构化数据 合成数据集 问答式摘要
📋 核心要点
- 现有证据抽取式摘要方法依赖固定粒度(如句子或段落),限制了证据的相关性和一致性。
- 提出抽取任意长度的非结构化证据片段,以更精确地支持摘要生成,提升模型可信度。
- 构建合成数据集SUnsET用于训练,实验证明该方法能提升证据相关性、一致性,并从更多样位置抽取证据。
📝 摘要(中文)
大型语言模型(LLMs)能够根据用户查询,从非常长的上下文中生成连贯的摘要。提取并引用证据片段有助于提高这些摘要的可信度。以往工作主要集中于固定粒度级别(例如,句子、段落、文档等)的证据引用,本文提出提取非结构化(即,任意长度的片段)证据,以便获得比固定粒度情况更相关和一致的证据。研究表明,现有系统难以复制和正确引用非结构化证据,并且这些证据容易“迷失在中间”。为了帮助模型执行此任务,本文创建了带有非结构化证据文本的摘要数据集(SUnsET),这是一个使用新颖的pipeline生成的合成数据集,可用作非结构化证据摘要的训练监督。在涵盖人工撰写、合成、单文档和多文档设置的5个LLM和4个数据集上,实验证明,经过SUnsET调整的LLM能够生成与其摘要更相关且事实一致的证据,从上下文中更多样化的位置提取证据,并且可以生成比没有微调和固定粒度证据的基线更相关和一致的摘要。本文公开发布SUnsET和生成代码。
🔬 方法详解
问题定义:现有问答式摘要模型在抽取证据时,通常采用固定粒度(如句子、段落)的片段,这限制了证据的精确性和相关性。模型难以从长文本中找到并正确引用支持摘要的非结构化证据,导致摘要的事实一致性降低。此外,长文本中重要的证据容易“迷失在中间”,无法被有效利用。
核心思路:本文的核心思路是允许模型抽取任意长度的非结构化文本片段作为证据,从而更灵活、更精确地支持摘要生成。通过构建一个合成数据集SUnsET,来训练模型学习如何从长文本中抽取和引用这些非结构化证据。这种方法旨在提高摘要的事实一致性和相关性,并解决长文本证据“迷失在中间”的问题。
技术框架:该方法主要包含两个阶段:1) 构建合成数据集SUnsET,用于训练模型抽取非结构化证据;2) 使用SUnsET对预训练语言模型进行微调,使其能够生成带有非结构化证据引用的摘要。SUnsET的构建pipeline包括:query生成、文档检索、证据抽取和摘要生成等步骤。微调阶段使用标准的序列到序列学习框架,目标是生成既包含摘要又包含对应证据片段的文本。
关键创新:最重要的技术创新点在于提出了非结构化证据抽取的概念,并构建了相应的合成数据集SUnsET。与以往固定粒度的证据抽取方法相比,非结构化证据抽取能够更灵活地捕捉到与摘要最相关的文本片段,从而提高摘要的事实一致性和相关性。SUnsET数据集的构建pipeline也是一个创新点,它提供了一种有效的方法来生成用于训练非结构化证据抽取模型的合成数据。
关键设计:SUnsET数据集的构建过程中,query生成模块负责生成与文档相关的查询;证据抽取模块负责从文档中抽取支持摘要的非结构化文本片段;摘要生成模块负责根据查询和证据生成摘要。在微调阶段,使用了标准的序列到序列学习框架,损失函数为交叉熵损失。具体的模型架构和超参数设置在论文中没有详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过SUnsET数据集微调的LLM在多个数据集上都取得了显著的性能提升。例如,在事实一致性方面,该方法优于没有微调和固定粒度证据抽取的基线模型。此外,该方法还能够从上下文中更多样化的位置提取证据,表明其能够更好地利用长文本信息。具体的性能提升幅度在论文中没有给出明确的数值,属于未知信息。
🎯 应用场景
该研究成果可应用于各种需要从长文本中生成摘要的场景,例如新闻摘要、法律文档摘要、科研论文摘要等。通过提供更精确和相关的证据,可以提高摘要的可信度和实用性。该方法还有助于提升大型语言模型在处理长文本任务中的能力,并为未来的研究提供新的思路。
📄 摘要(原文)
Large language models (LLMs) are capable of generating coherent summaries from very long contexts given a user query, and extracting and citing evidence spans helps improve the trustworthiness of these summaries. Whereas previous work has focused on evidence citation with fixed levels of granularity (e.g. sentence, paragraph, document, etc.), we propose to extract unstructured (i.e., spans of any length) evidence in order to acquire more relevant and consistent evidence than in the fixed granularity case. We show how existing systems struggle to copy and properly cite unstructured evidence, which also tends to be "lost-in-the-middle". To help models perform this task, we create the Summaries with Unstructured Evidence Text dataset (SUnsET), a synthetic dataset generated using a novel pipeline, which can be used as training supervision for unstructured evidence summarization. We demonstrate across 5 LLMs and 4 datasets spanning human written, synthetic, single, and multi-document settings that LLMs adapted with SUnsET generate more relevant and factually consistent evidence with their summaries, extract evidence from more diverse locations in their context, and can generate more relevant and consistent summaries than baselines with no fine-tuning and fixed granularity evidence. We release SUnsET and our generation code to the public.