Dynamic Compressing Prompts for Efficient Inference of Large Language Models

📄 arXiv: 2504.11004v1 📥 PDF

作者: Jinwu Hu, Wei Zhang, Yufeng Wang, Yu Hu, Bin Xiao, Mingkui Tan, Qing Du

分类: cs.CL, cs.AI

发布日期: 2025-04-15

备注: Under review (submited in 2024.11)

🔗 代码/项目: GITHUB


💡 一句话要点

提出动态压缩提示(LLM-DCP)方法,高效推理大型语言模型,显著降低计算成本。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 提示压缩 马尔可夫决策过程 动态压缩 分层学习 高效推理 自然语言处理

📋 核心要点

  1. 现有提示方法依赖冗长提示,导致计算成本高昂,且受限于LLM的上下文窗口。
  2. 提出LLM-DCP方法,将提示压缩建模为MDP,通过DCP-Agent动态删除冗余token,保留关键信息。
  3. 引入HPC训练策略,渐进式增加压缩难度,实验表明该方法优于现有技术,尤其在高压缩率下。

📝 摘要(中文)

大型语言模型(LLM)在各种任务中表现出色,部分归功于先进的提示技术。然而,这些技术通常需要冗长的提示,这会增加计算成本,并因LLM有限的上下文窗口而阻碍性能。提示压缩是一种直接的解决方案,但现有方法面临着保留关键信息、适应上下文变化以及在不同任务中保持有效性的挑战。为了解决这些问题,我们提出了一种与任务无关的方法,称为动态压缩提示(LLM-DCP)。我们的方法减少了提示token的数量,同时尽可能地保持性能。我们将提示压缩建模为马尔可夫决策过程(MDP),使DCP-Agent能够通过适应动态上下文并保留关键内容来顺序删除冗余token。我们为训练DCP-Agent开发了一个奖励函数,该函数平衡了压缩率、LLM输出的质量以及关键信息的保留。这允许在不需要外部黑盒LLM的情况下减少提示token。受课程学习中渐进式难度调整的启发,我们引入了一种分层提示压缩(HPC)训练策略,该策略逐渐增加压缩难度,使DCP-Agent能够学习一种有效的压缩方法,以保持信息的完整性。实验表明,我们的方法优于最先进的技术,尤其是在较高的压缩率下。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)推理过程中,由于冗长提示导致的计算成本高、性能受限的问题。现有提示压缩方法难以在保持关键信息、适应上下文变化和跨任务有效性之间取得平衡,导致压缩效果不佳。

核心思路:论文的核心思路是将提示压缩过程建模为一个马尔可夫决策过程(MDP),通过训练一个DCP-Agent来动态地删除冗余的提示token,同时保留关键信息。这种方法允许Agent根据上下文动态调整压缩策略,从而提高压缩效率和性能。

技术框架:整体框架包含三个主要部分:1) 提示压缩环境,将提示token序列作为状态空间;2) DCP-Agent,负责根据当前状态选择要删除的token;3) 奖励函数,用于评估Agent的压缩效果,包括压缩率、LLM输出质量和信息保留程度。DCP-Agent通过与环境交互,不断学习优化压缩策略。此外,还引入了分层提示压缩(HPC)训练策略,逐步增加压缩难度。

关键创新:论文的关键创新在于将提示压缩问题转化为一个动态决策过程,并设计了相应的DCP-Agent和奖励函数。这种方法能够自适应地学习最优的压缩策略,从而在保证LLM性能的同时,显著降低计算成本。HPC训练策略也进一步提升了Agent的学习效率和泛化能力。与现有方法相比,该方法无需依赖外部黑盒LLM进行训练,降低了训练成本。

关键设计:奖励函数的设计是关键。它综合考虑了压缩率(减少token数量)、LLM输出质量(例如,使用BLEU或ROUGE等指标评估)以及信息保留程度(例如,通过计算删除token前后LLM输出的相似度来衡量)。HPC训练策略通过逐步增加压缩难度,帮助Agent更好地学习如何在高压缩率下保持信息的完整性。DCP-Agent的具体网络结构未知,但推测可能采用循环神经网络(RNN)或Transformer等序列模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM-DCP方法在各种任务上均优于现有提示压缩技术,尤其是在高压缩率下。具体性能数据未知,但论文强调该方法能够在显著减少提示token数量的同时,保持甚至提高LLM的输出质量。该方法无需依赖外部黑盒LLM进行训练,降低了训练成本。

🎯 应用场景

该研究成果可广泛应用于各种需要使用大型语言模型进行推理的场景,尤其是在资源受限的环境中,例如移动设备、边缘计算等。通过降低提示的长度,可以显著减少计算资源消耗,提高推理速度,并降低部署成本。此外,该方法还可以用于优化LLM的prompt设计,提高其在特定任务上的性能。

📄 摘要(原文)

Large Language Models (LLMs) have shown outstanding performance across a variety of tasks, partly due to advanced prompting techniques. However, these techniques often require lengthy prompts, which increase computational costs and can hinder performance because of the limited context windows of LLMs. While prompt compression is a straightforward solution, existing methods confront the challenges of retaining essential information, adapting to context changes, and remaining effective across different tasks. To tackle these issues, we propose a task-agnostic method called Dynamic Compressing Prompts (LLM-DCP). Our method reduces the number of prompt tokens while aiming to preserve the performance as much as possible. We model prompt compression as a Markov Decision Process (MDP), enabling the DCP-Agent to sequentially remove redundant tokens by adapting to dynamic contexts and retaining crucial content. We develop a reward function for training the DCP-Agent that balances the compression rate, the quality of the LLM output, and the retention of key information. This allows for prompt token reduction without needing an external black-box LLM. Inspired by the progressive difficulty adjustment in curriculum learning, we introduce a Hierarchical Prompt Compression (HPC) training strategy that gradually increases the compression difficulty, enabling the DCP-Agent to learn an effective compression method that maintains information integrity. Experiments demonstrate that our method outperforms state-of-the-art techniques, especially at higher compression rates. The code for our approach will be available at https://github.com/Fhujinwu/DCP.