Perception Compressor: A Training-Free Prompt Compression Framework in Long Context Scenarios

📄 arXiv: 2409.19272v5 📥 PDF

作者: Jiwei Tang, Jin Xu, Tingwei Lu, Zhicheng Zhang, Yiming Zhao, Lin Hai, Hai-Tao Zheng

分类: cs.CL

发布日期: 2024-09-28 (更新: 2025-02-08)

备注: Accepted at NAACL 2025 Findings


💡 一句话要点

Perception Compressor:一种长文本场景下免训练的提示压缩框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本处理 提示压缩 大型语言模型 免训练 信息检索 问答系统 自然语言处理

📋 核心要点

  1. 大型语言模型在长文本处理中面临冗余信息和关键信息位置敏感性的挑战。
  2. Perception Compressor通过感知检索、动态比率分配和迭代压缩来解决长文本提示的压缩问题。
  3. 实验表明,Perception Compressor在长文本基准测试中显著优于现有方法,达到SOTA水平。

📝 摘要(中文)

大型语言模型(LLMs)在各种场景中展现出卓越的能力。然而,它们存在大量冗余信息,并且对长文本场景中关键信息的位置非常敏感。为了解决这些挑战,我们提出了一种免训练的提示压缩框架,名为Perception Compressor。它包括一个感知检索器,利用引导问题和指令来检索最相关的演示;一个双斜率比率分配器,用于动态分配压缩比率和开放书籍比率;以及一个半引导迭代压缩,在token级别保留关键信息,同时删除分散LLM注意力的token。我们在长文本基准测试(即NaturalQuestions、LongBench和MuSiQue)上进行了大量实验。实验结果表明,Perception Compressor的性能大大优于现有方法,实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在处理长文本提示时存在的冗余信息过多以及对关键信息位置过于敏感的问题。现有方法在长文本场景下,要么效率低下,要么无法有效保留关键信息,导致性能下降。

核心思路:论文的核心思路是通过压缩提示来减少冗余信息,并突出关键信息,从而提高大型语言模型在长文本场景下的性能。该方法无需训练,通过感知检索、动态比率分配和迭代压缩三个步骤来实现。

技术框架:Perception Compressor框架包含三个主要模块:1) 感知检索器:利用引导问题和指令从原始提示中检索最相关的演示。2) 双斜率比率分配器:动态地为压缩比率和开放书籍比率分配权重,以平衡压缩和信息保留。3) 半引导迭代压缩:在token级别进行迭代压缩,保留关键信息,同时删除分散模型注意力的token。

关键创新:该方法的主要创新在于提出了一种免训练的提示压缩框架,该框架能够自适应地压缩长文本提示,同时保留关键信息。与现有方法相比,Perception Compressor不需要额外的训练数据或模型微调,更易于部署和应用。

关键设计:感知检索器使用预定义的引导问题和指令来评估每个token的重要性。双斜率比率分配器根据提示的长度和复杂度动态调整压缩比率。半引导迭代压缩使用一种基于注意力的机制来识别和删除不重要的token,同时保留关键信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Perception Compressor在NaturalQuestions、LongBench和MuSiQue等长文本基准测试中取得了显著的性能提升,超越了现有的提示压缩方法。具体而言,该方法在多个数据集上实现了SOTA性能,证明了其在长文本场景下的有效性和优越性。

🎯 应用场景

Perception Compressor具有广泛的应用前景,可用于提升大型语言模型在信息检索、问答系统、文本摘要、机器翻译等领域的性能。通过压缩提示,可以减少计算资源消耗,提高处理效率,并改善模型在长文本场景下的表现。该方法尤其适用于资源受限的环境和对延迟敏感的应用。

📄 摘要(原文)

Large language models (LLMs) demonstrate exceptional capabilities in various scenarios. However, they suffer from much redundant information and are sensitive to the position of key information in long context scenarios. To address these challenges, we present Perception Compressor, a training-free prompt compression framework. It includes a perception retriever that leverages guiding questions and instruction to retrieve the most relevant demonstrations, a dual-slope ratio allocator to dynamically allocate compression ratios and open-book ratios, and a semi-guided iterative compression that retains key information at the token level while removing tokens that distract the LLM. We conduct extensive experiments on long context benchmarks, i.e., NaturalQuestions, LongBench, and MuSiQue. Experiment results show that Perception Compressor outperforms existing methods by a large margin, achieving state-of-the-art performance.