PoC: Performance-oriented Context Compression for Large Language Models via Performance Prediction

📄 arXiv: 2603.19733v1 📥 PDF

作者: Runsong Zhao, Shilei Liu, Jiwei Tang, Langming Liu, Haibin Chen, Weidong Zhang, Yujin Yuan, Tong Xiao, Jingbo Zhu, Wenbo Su, Bo Zheng

分类: cs.CL

发布日期: 2026-03-20


💡 一句话要点

提出PoC:一种面向性能的大语言模型上下文压缩方法,通过性能预测保证性能下限。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 上下文压缩 性能预测 推理效率 长文本处理

📋 核心要点

  1. 现有上下文压缩方法依赖固定压缩比,导致性能下降难以预测,限制了实际应用。
  2. PoC通过性能预测器,在满足用户指定的性能下限前提下,寻找最大压缩比。
  3. 实验表明,上下文感知预测器优于上下文无关预测器,PoC整体性能更优。

📝 摘要(中文)

本文提出了一种面向性能的上下文压缩(PoC)新范式,旨在解决现有上下文压缩方法因指定固定压缩比或长度而导致性能下降不可预测的问题。PoC允许开发者指定可接受的性能下限,而非压缩比。该方法利用轻量级的性能预测器,在驱动现成的压缩器之前,自动找到满足性能约束的最激进压缩比。论文设计并比较了两种预测器变体:一种简单的上下文无关预测器和一种更复杂的上下文感知预测器,后者考虑了输入固有的可压缩性。在问答和摘要基准测试中,上下文感知预测器始终比上下文无关预测器实现了更低的性能预测误差,并且上下文感知PoC获得了卓越的整体性能。这项工作为大语言模型上下文压缩的更可靠、高效和性能感知的部署铺平了道路。

🔬 方法详解

问题定义:现有的大语言模型上下文压缩方法通常需要预先设定一个固定的压缩比率或压缩后的长度。这种做法的缺点在于,压缩后的性能下降是不可预测的,难以保证模型在压缩后的性能仍然满足实际应用的需求。因此,如何能够在保证模型性能的前提下,尽可能地压缩上下文,是一个亟待解决的问题。

核心思路:PoC的核心思路是将上下文压缩的目标从压缩比率转移到性能。用户不再指定压缩比,而是指定一个可接受的性能下限。PoC通过一个性能预测器来预测不同压缩比下的模型性能,从而找到满足性能下限的最激进的压缩比。这样,就可以在保证性能的前提下,尽可能地压缩上下文,提高推理效率。

技术框架:PoC的整体框架包含以下几个主要模块:1) 上下文压缩器:使用现成的上下文压缩算法,例如LongLLMLingua等。2) 性能预测器:预测压缩后的上下文在下游任务上的性能。论文提出了两种预测器:上下文无关预测器和上下文感知预测器。3) 搜索算法:在不同的压缩比下,使用性能预测器预测性能,并找到满足性能下限的最激进压缩比。

关键创新:PoC的关键创新在于将上下文压缩的目标从压缩比率转移到性能,并使用性能预测器来指导上下文压缩。这种方法可以保证在压缩上下文的同时,模型的性能仍然满足实际应用的需求。此外,论文提出的上下文感知预测器,考虑了输入固有的可压缩性,可以更准确地预测压缩后的性能。

关键设计:论文设计了两种性能预测器:上下文无关预测器和上下文感知预测器。上下文无关预测器直接预测压缩后的性能,不考虑输入的内容。上下文感知预测器首先对输入进行分析,提取输入的特征,然后根据输入特征和压缩比来预测压缩后的性能。上下文感知预测器使用了更复杂的网络结构,例如Transformer,来提取输入特征。损失函数使用了均方误差(MSE)来衡量预测性能和实际性能之间的差距。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,上下文感知预测器在问答和摘要任务上均优于上下文无关预测器,实现了更低的性能预测误差。使用上下文感知预测器的PoC方法,在保证性能下限的前提下,能够实现更高的压缩比,从而获得更好的整体性能。具体而言,上下文感知PoC在多个基准测试上都取得了显著的性能提升,证明了其有效性。

🎯 应用场景

PoC方法可以广泛应用于需要处理长上下文的大语言模型应用场景,例如问答系统、文档摘要、代码生成等。通过在保证性能的前提下压缩上下文,可以显著降低推理成本,提高响应速度,使得大语言模型能够更高效地部署在资源受限的设备上。未来,PoC还可以与其他上下文压缩技术相结合,进一步提高压缩效率和性能。

📄 摘要(原文)

While context compression can mitigate the growing inference costs of Large Language Models (LLMs) by shortening contexts, existing methods that specify a target compression ratio or length suffer from unpredictable performance degradation, hindering their reliable deployment. We introduce a paradigm shift to Performance-oriented Context Compression (PoC), where developers specify an acceptable performance floor instead of a compression ratio. PoC employs a lightweight performance predictor to automatically find the most aggressive compression ratio that satisfies this constraint before steering an off-the-shelf compressor. We design and compare two predictor variants: a simple context-agnostic predictor and a more sophisticated context-aware one that considers the input's inherent compressibility. On both question-answering and summarization benchmarks, the context-aware predictor consistently achieves lower performance prediction error than the context-agnostic predictor, while the resulting context-aware PoC attains a superior overall performance. Our work paves the way for a more reliable, efficient, and performance-aware deployment of context compression for LLMs.