Improving Faithfulness of Large Language Models in Summarization via Sliding Generation and Self-Consistency

作者: Taiji Li, Zhi Li, Yin Zhang

分类: cs.CL, cs.AI

发布日期: 2024-07-31

备注: Long paper accepted at LREC-COLING 2024 (oral)

💡 一句话要点

提出SliSum方法，通过滑动生成和自洽性提升大型语言模型在摘要生成中的忠实度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本摘要 大型语言模型 幻觉问题 滑动窗口 自洽性

📋 核心要点

大型语言模型在摘要任务中存在幻觉问题，即生成与原文不符的内容，尤其在长文本摘要中，模型倾向于关注文章的首尾信息。
SliSum方法通过滑动窗口将长文本分割成多个局部窗口，利用LLM生成局部摘要，再通过聚类和多数投票聚合局部摘要，提升模型对全文的关注度。
实验结果表明，SliSum能显著提升LLaMA-2、Claude-2和GPT-3.5等模型在摘要任务中的忠实度，同时保持流畅性和信息量，无需额外资源。

📝 摘要（中文）

大型语言模型(LLMs)在各种任务中表现出色，但仍存在事实不一致问题，即幻觉。例如，LLMs有时会生成与源文章不同的内容，并且倾向于提取上下文中开头和结尾的信息，尤其是在长文档摘要中。受此启发，我们提出了一种新的摘要生成策略SliSum，通过促使LLMs更公平和忠实地处理整篇文章来提高其在摘要生成中的忠实度。SliSum利用滑动窗口和自洽性的思想，将源文章分成重叠的窗口，并利用LLM为窗口中的内容生成局部摘要。最后，SliSum使用聚类和多数投票算法聚合所有局部摘要，以生成更忠实的整篇文章摘要。大量实验表明，SliSum显著提高了包括LLaMA-2、Claude-2和GPT-3.5在内的各种LLM在短文本和长文本摘要生成中的忠实度，同时保持了它们的流畅性和信息量，且无需额外的微调和资源。我们进一步进行了定性和定量研究，以调查SliSum的工作原理以及SliSum中超参数对性能的影响。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在文本摘要任务中存在的“幻觉”问题，即生成的内容与原文不符，尤其是在长文本摘要中，模型容易忽略中间信息，导致摘要的忠实度下降。现有方法难以保证模型对全文信息的均衡关注。

核心思路：核心思路是将长文本分割成多个重叠的滑动窗口，让LLM分别对每个窗口生成局部摘要。通过这种方式，强制模型关注文本的各个部分，避免只关注首尾信息。然后，将所有局部摘要进行聚合，生成最终的摘要。

技术框架：SliSum方法主要包含以下几个阶段： 1. 滑动窗口划分：将源文档划分为多个重叠的窗口。 2. 局部摘要生成：使用LLM对每个窗口的内容生成局部摘要。 3. 摘要聚合：使用聚类和多数投票算法将所有局部摘要聚合，生成最终摘要。

关键创新：SliSum的关键创新在于其滑动窗口的生成方式和摘要聚合策略。通过滑动窗口，模型能够更全面地关注原文信息，减少幻觉的产生。摘要聚合策略则通过聚类和多数投票，选择最可靠和一致的信息，进一步提升摘要的忠实度。与现有方法相比，SliSum不需要额外的微调和资源，可以直接应用于各种LLM。

关键设计： * 窗口大小和步长：窗口大小决定了每次LLM处理的文本长度，步长决定了窗口之间的重叠程度。这两个参数需要根据具体任务和文本长度进行调整。 * 聚类算法：论文使用了一种基于语义相似度的聚类算法，将语义相近的局部摘要聚为一类。 * 多数投票算法：对于每个聚类，选择出现次数最多的信息作为最终摘要的一部分。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SliSum方法在多个数据集上显著提高了LLM摘要的忠实度，包括LLaMA-2、Claude-2和GPT-3.5等模型。在长文本摘要任务中，SliSum的提升尤为明显。此外，SliSum在提升忠实度的同时，保持了摘要的流畅性和信息量，且无需额外的微调和资源。

🎯 应用场景

SliSum方法可以广泛应用于需要高忠实度的文本摘要场景，例如新闻摘要、法律文档摘要、医学报告摘要等。该方法能够有效减少LLM在摘要生成中的幻觉问题，提高摘要的可靠性和实用性。未来，该方法可以进一步扩展到其他自然语言生成任务中，例如机器翻译、对话生成等。

📄 摘要（原文）

Despite large language models (LLMs) have demonstrated impressive performance in various tasks, they are still suffering from the factual inconsistency problem called hallucinations. For instance, LLMs occasionally generate content that diverges from source article, and prefer to extract information that appears at the beginning and end of the context, especially in long document summarization. Inspired by these findings, we propose to improve the faithfulness of LLMs in summarization by impelling them to process the entire article more fairly and faithfully. We present a novel summary generation strategy, namely SliSum, which exploits the ideas of sliding windows and self-consistency. Specifically, SliSum divides the source article into overlapping windows, and utilizes LLM to generate local summaries for the content in the windows. Finally, SliSum aggregates all local summaries using clustering and majority voting algorithm to produce more faithful summary of entire article. Extensive experiments demonstrate that SliSum significantly improves the faithfulness of diverse LLMs including LLaMA-2, Claude-2 and GPT-3.5 in both short and long text summarization, while maintaining their fluency and informativeness and without additional fine-tuning and resources. We further conduct qualitative and quantitative studies to investigate why SliSum works and impacts of hyperparameters in SliSum on performance.

Improving Faithfulness of Large Language Models in Summarization via Sliding Generation and Self-Consistency

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理