CLIPPER: Compression enables long-context synthetic data generation

作者: Chau Minh Pham, Yapei Chang, Mohit Iyyer

分类: cs.CL

发布日期: 2025-02-20 (更新: 2025-08-05)

备注: Accepted to COLM 2025

💡 一句话要点

CLIPPER：通过压缩增强长文本合成数据生成，提升叙事性声明验证性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本理解 合成数据生成 文本压缩 叙事性声明验证 思维链 LLM微调 数据增强

📋 核心要点

长文本推理任务合成数据质量低，直接从原始文本生成声明易产生人为痕迹，是当前面临的核心问题。
CLIPPER通过先将长文本压缩为章节大纲和摘要，再基于压缩表示生成高质量的声明和思维链，提升数据质量。
实验表明，CLIPPER生成的数据能显著提升模型在叙事性声明验证任务上的性能，并在NoCha排行榜上取得领先。

📝 摘要（中文）

LLM开发者越来越依赖合成数据，但为复杂的长文本推理任务生成高质量数据仍然具有挑战性。我们提出了CLIPPER，一种基于压缩的方法，用于生成针对叙事性声明验证的合成数据——该任务需要对一本书进行推理以验证给定的声明。CLIPPER不是直接从书籍的原始文本生成声明（这会导致生成充满人为痕迹的声明），而是首先将书籍压缩成章节大纲和书籍摘要，然后使用这些中间表示来生成复杂的声明和相应的思维链。与朴素方法相比，CLIPPER生成的声明更有效、更可靠和更复杂。使用CLIPPER，我们构建了一个包含1.9万个合成书籍声明的数据集，这些声明与其源文本和思维链推理配对，并使用它来微调三个开放权重模型。我们最好的模型在叙事性声明验证方面取得了突破性成果（在我们的测试集上从28%提高到76%的准确率），并在NoCha排行榜上为低于100亿参数的模型树立了新的最先进水平。进一步的分析表明，我们的模型生成了更详细和可靠的思维链推理，同时也提高了在其他叙事理解任务（例如，NarrativeQA）上的性能。

🔬 方法详解

问题定义：论文旨在解决长文本叙事性声明验证任务中，训练数据不足且质量不高的问题。现有方法直接从原始长文本生成数据，容易产生不真实、缺乏依据的声明，导致模型训练效果不佳。因此，如何生成高质量、与长文本内容紧密相关的合成数据是关键挑战。

核心思路：论文的核心思路是利用压缩技术，将长文本信息进行提炼和浓缩，生成更易于控制和理解的中间表示（章节大纲和书籍摘要）。然后，基于这些中间表示生成声明和思维链，从而确保生成的数据更有效、更可靠，并与原始文本内容紧密相关。这种方法模拟了人类阅读理解的过程，即先理解文章大意，再进行推理和判断。

技术框架：CLIPPER框架包含以下几个主要阶段： 1. 文本压缩：使用现有的文本摘要模型或规则方法，将原始书籍文本压缩成章节大纲和书籍摘要。 2. 声明生成：基于压缩后的文本表示，使用LLM生成叙事性声明。可以采用不同的prompt策略来控制声明的复杂度和类型。 3. 思维链生成：为生成的声明生成相应的思维链推理过程，解释声明的依据和推理步骤。 4. 数据构建：将生成的声明、思维链和对应的原始文本组成训练数据集。

关键创新：CLIPPER的关键创新在于将文本压缩技术引入到合成数据生成流程中。通过压缩，可以有效减少噪声，突出关键信息，从而提高生成数据的质量和可靠性。与直接从原始文本生成数据的方法相比，CLIPPER能够生成更复杂、更 grounded 的声明和思维链。

关键设计：论文中，文本压缩阶段可以使用不同的摘要模型，例如 BART 或 T5。声明生成和思维链生成阶段，可以使用不同的 prompt 工程技术来控制生成数据的质量和多样性。此外，还可以通过人工评估和过滤来进一步提高数据的质量。损失函数方面，可以使用标准的交叉熵损失函数来训练LLM。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用CLIPPER生成的合成数据微调后的模型，在叙事性声明验证任务上取得了显著的性能提升，准确率从28%提高到76%。该模型还在NoCha排行榜上，在参数量小于100亿的模型中，达到了新的state-of-the-art。此外，该模型在其他叙事理解任务（如NarrativeQA）上也表现出性能提升。

🎯 应用场景

CLIPPER方法可应用于各种需要长文本理解和推理的场景，例如自动问答、信息检索、知识图谱构建等。通过生成高质量的合成数据，可以有效提升模型在这些任务上的性能，尤其是在数据稀缺或标注成本高昂的情况下。该方法还有助于提高模型的鲁棒性和泛化能力。

📄 摘要（原文）

LLM developers are increasingly reliant on synthetic data, but generating high-quality data for complex long-context reasoning tasks remains challenging. We introduce CLIPPER, a compression-based approach for generating synthetic data tailored to narrative claim verification - a task that requires reasoning over a book to verify a given claim. Instead of generating claims directly from the raw text of the book, which results in artifact-riddled claims, CLIPPER first compresses the book into chapter outlines and book summaries and then uses these intermediate representations to generate complex claims and corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces claims that are more valid, grounded, and complex. Using CLIPPER, we construct a dataset of 19K synthetic book claims paired with their source texts and chain-of-thought reasoning, and use it to fine-tune three open-weight models. Our best model achieves breakthrough results on narrative claim verification (from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for sub-10B models on the NoCha leaderboard. Further analysis shows that our models generate more detailed and grounded chain-of-thought reasoning while also improving performance on other narrative understanding tasks (e.g., NarrativeQA).

CLIPPER: Compression enables long-context synthetic data generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理