CLIPPER: Compression enables long-context synthetic data generation
作者: Chau Minh Pham, Yapei Chang, Mohit Iyyer
分类: cs.CL
发布日期: 2025-02-20 (更新: 2025-08-05)
备注: Accepted to COLM 2025
💡 一句话要点
CLIPPER:通过压缩增强长文本合成数据生成,提升叙事性声明验证性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本理解 合成数据生成 文本压缩 叙事性声明验证 思维链 LLM微调 数据增强
📋 核心要点
- 长文本推理任务合成数据质量低,直接从原始文本生成声明易产生人为痕迹,是当前面临的核心问题。
- CLIPPER通过先将长文本压缩为章节大纲和摘要,再基于压缩表示生成高质量的声明和思维链,提升数据质量。
- 实验表明,CLIPPER生成的数据能显著提升模型在叙事性声明验证任务上的性能,并在NoCha排行榜上取得领先。
📝 摘要(中文)
LLM开发者越来越依赖合成数据,但为复杂的长文本推理任务生成高质量数据仍然具有挑战性。我们提出了CLIPPER,一种基于压缩的方法,用于生成针对叙事性声明验证的合成数据——该任务需要对一本书进行推理以验证给定的声明。CLIPPER不是直接从书籍的原始文本生成声明(这会导致生成充满人为痕迹的声明),而是首先将书籍压缩成章节大纲和书籍摘要,然后使用这些中间表示来生成复杂的声明和相应的思维链。与朴素方法相比,CLIPPER生成的声明更有效、更可靠和更复杂。使用CLIPPER,我们构建了一个包含1.9万个合成书籍声明的数据集,这些声明与其源文本和思维链推理配对,并使用它来微调三个开放权重模型。我们最好的模型在叙事性声明验证方面取得了突破性成果(在我们的测试集上从28%提高到76%的准确率),并在NoCha排行榜上为低于100亿参数的模型树立了新的最先进水平。进一步的分析表明,我们的模型生成了更详细和可靠的思维链推理,同时也提高了在其他叙事理解任务(例如,NarrativeQA)上的性能。
🔬 方法详解
问题定义:论文旨在解决长文本叙事性声明验证任务中,训练数据不足且质量不高的问题。现有方法直接从原始长文本生成数据,容易产生不真实、缺乏依据的声明,导致模型训练效果不佳。因此,如何生成高质量、与长文本内容紧密相关的合成数据是关键挑战。
核心思路:论文的核心思路是利用压缩技术,将长文本信息进行提炼和浓缩,生成更易于控制和理解的中间表示(章节大纲和书籍摘要)。然后,基于这些中间表示生成声明和思维链,从而确保生成的数据更有效、更可靠,并与原始文本内容紧密相关。这种方法模拟了人类阅读理解的过程,即先理解文章大意,再进行推理和判断。
技术框架:CLIPPER框架包含以下几个主要阶段: 1. 文本压缩:使用现有的文本摘要模型或规则方法,将原始书籍文本压缩成章节大纲和书籍摘要。 2. 声明生成:基于压缩后的文本表示,使用LLM生成叙事性声明。可以采用不同的prompt策略来控制声明的复杂度和类型。 3. 思维链生成:为生成的声明生成相应的思维链推理过程,解释声明的依据和推理步骤。 4. 数据构建:将生成的声明、思维链和对应的原始文本组成训练数据集。
关键创新:CLIPPER的关键创新在于将文本压缩技术引入到合成数据生成流程中。通过压缩,可以有效减少噪声,突出关键信息,从而提高生成数据的质量和可靠性。与直接从原始文本生成数据的方法相比,CLIPPER能够生成更复杂、更 grounded 的声明和思维链。
关键设计:论文中,文本压缩阶段可以使用不同的摘要模型,例如 BART 或 T5。声明生成和思维链生成阶段,可以使用不同的 prompt 工程技术来控制生成数据的质量和多样性。此外,还可以通过人工评估和过滤来进一步提高数据的质量。损失函数方面,可以使用标准的交叉熵损失函数来训练LLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用CLIPPER生成的合成数据微调后的模型,在叙事性声明验证任务上取得了显著的性能提升,准确率从28%提高到76%。该模型还在NoCha排行榜上,在参数量小于100亿的模型中,达到了新的state-of-the-art。此外,该模型在其他叙事理解任务(如NarrativeQA)上也表现出性能提升。
🎯 应用场景
CLIPPER方法可应用于各种需要长文本理解和推理的场景,例如自动问答、信息检索、知识图谱构建等。通过生成高质量的合成数据,可以有效提升模型在这些任务上的性能,尤其是在数据稀缺或标注成本高昂的情况下。该方法还有助于提高模型的鲁棒性和泛化能力。
📄 摘要(原文)
LLM developers are increasingly reliant on synthetic data, but generating high-quality data for complex long-context reasoning tasks remains challenging. We introduce CLIPPER, a compression-based approach for generating synthetic data tailored to narrative claim verification - a task that requires reasoning over a book to verify a given claim. Instead of generating claims directly from the raw text of the book, which results in artifact-riddled claims, CLIPPER first compresses the book into chapter outlines and book summaries and then uses these intermediate representations to generate complex claims and corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces claims that are more valid, grounded, and complex. Using CLIPPER, we construct a dataset of 19K synthetic book claims paired with their source texts and chain-of-thought reasoning, and use it to fine-tune three open-weight models. Our best model achieves breakthrough results on narrative claim verification (from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for sub-10B models on the NoCha leaderboard. Further analysis shows that our models generate more detailed and grounded chain-of-thought reasoning while also improving performance on other narrative understanding tasks (e.g., NarrativeQA).