Prompt Compression in Diffusion Large Language Models: Evaluating LLMLingua-2 on LLaDA
作者: Sterling Huang, Abigayle Brown, Jiyoo Noh, Jiakang Xu, Wantong Huo, Kaung Myat Kyaw, Jonathan Chan
分类: cs.CL, cs.AI
发布日期: 2026-05-18
💡 一句话要点
评估LLMLingua-2在扩散大语言模型LLaDA上的Prompt压缩性能,揭示其与自回归模型的差异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Prompt压缩 扩散大语言模型 LLMLingua-2 LLaDA 信息遗漏
📋 核心要点
- 现有prompt压缩方法主要针对自回归模型设计,缺乏在扩散大语言模型上的有效性评估。
- 本研究使用LLMLingua-2压缩LLaDA的prompt,并评估其在数学推理、prompt重建和摘要任务上的性能。
- 实验表明,语义相似度高的压缩prompt在扩散模型中可能导致性能下降,尤其是在数学推理任务中。
📝 摘要(中文)
Prompt压缩旨在降低大语言模型的推理成本和上下文长度,但以往的评估主要集中在自回归架构上。本研究探讨了prompt压缩方法能否有效迁移到扩散大语言模型(DLLM),具体使用了LLMLingua-2在80亿参数的DLLM LLaDA上进行评估。我们使用GSM8K、DUC2004和ShareGPT数据集,每个数据集250个prompt,在约2倍的压缩率下,评估了数学推理、prompt重建和摘要任务的压缩性能。通过精确匹配准确率、BLEU、ROUGE和BERTScore比较了原始prompt、压缩prompt、重建prompt和重建prompt推理生成的输出。结果表明,语义保持并不一定意味着扩散模型中稳定的下游行为。摘要任务在压缩下相对稳健,而数学推理则显著退化,尽管语义相似度得分很高。重建实验进一步表明,语义相似的prompt可能仍然会遗漏推理所需的关键信息,从而导致去噪不稳定。在所有任务中,BERTScore召回率始终低于精确率,表明压缩失败主要是由信息遗漏而非语义漂移驱动的。这些发现表明,为自回归模型设计的prompt压缩方法不能统一迁移到扩散大语言模型,并促使开发扩散感知的压缩策略。
🔬 方法详解
问题定义:论文旨在研究prompt压缩技术在扩散大语言模型(DLLM)上的适用性。现有的prompt压缩方法主要针对自回归模型设计,缺乏对DLLM的有效性评估。直接将这些方法应用于DLLM可能会导致性能下降,尤其是在需要复杂推理的任务中。
核心思路:论文的核心思路是评估现有的prompt压缩方法(LLMLingua-2)在DLLM(LLaDA)上的性能,并分析其失效的原因。通过对比原始prompt、压缩prompt和重建prompt的性能,揭示压缩过程中的信息损失对DLLM的影响。论文假设,即使语义相似度较高,压缩prompt也可能遗漏对DLLM推理至关重要的信息。
技术框架:论文的整体框架包括以下几个步骤:1) 使用LLMLingua-2对GSM8K、DUC2004和ShareGPT数据集中的prompt进行压缩,压缩率为约2倍。2) 使用LLaDA模型,分别基于原始prompt、压缩prompt和重建prompt生成输出。3) 使用精确匹配准确率、BLEU、ROUGE和BERTScore等指标,对生成的输出进行评估和比较。4) 分析BERTScore的精确率和召回率,以确定压缩失败的主要原因是信息遗漏还是语义漂移。
关键创新:论文的关键创新在于首次系统性地评估了prompt压缩技术在扩散大语言模型上的性能。通过实验发现,为自回归模型设计的prompt压缩方法不能直接应用于DLLM,并揭示了信息遗漏是导致性能下降的主要原因。这一发现为未来开发扩散感知的prompt压缩策略提供了重要的指导。
关键设计:论文的关键设计包括:1) 选择LLMLingua-2作为prompt压缩方法,因为它是一种轻量级的、与模型无关的压缩方法。2) 选择LLaDA作为评估对象,因为它是一种具有代表性的扩散大语言模型。3) 使用多个数据集和任务,以评估压缩方法在不同场景下的泛化能力。4) 使用BERTScore的精确率和召回率,以更细粒度地分析压缩失败的原因。没有涉及具体的参数设置、损失函数或网络结构,因为论文主要关注的是prompt压缩方法在DLLM上的适用性,而不是提出新的模型或算法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLMLingua-2在LLaDA上的prompt压缩导致数学推理任务性能显著下降,尽管语义相似度得分较高。BERTScore分析表明,压缩失败的主要原因是信息遗漏,而非语义漂移。摘要任务在压缩下相对稳健,表明不同任务对prompt压缩的敏感度不同。
🎯 应用场景
该研究成果对降低扩散大语言模型的推理成本、提高其在资源受限环境中的应用具有重要意义。未来的研究可以基于此,开发专门为扩散模型设计的prompt压缩算法,从而提升DLLM在各种下游任务中的性能,例如图像生成、文本生成和多模态任务。
📄 摘要(原文)
Prompt compression reduces inference cost and context length in large language models, but prior evaluations focus primarily on autoregressive architectures. This study investigates whether prompt compression transfers effectively to diffusion large language models (DLLMs) using LLMLingua-2, specifically the 8B-parameter DLLM LLaDA. We evaluate compression performance on GSM8K, DUC2004, and ShareGPT using 250 prompts per dataset at an approximate 2$\times$ compression ratio, across mathematical reasoning, prompt reconstruction, and summarization tasks. Outputs generated from original prompts, compressed prompts, reconstructed prompts, and reconstructed-prompt reasoning were compared using exact-match accuracy, BLEU, ROUGE, and BERTScore. Results show that semantic preservation does not necessarily imply stable downstream behavior in diffusion models. Summarization tasks remained comparatively robust under compression, while mathematical reasoning degraded substantially despite high semantic similarity scores. Reconstruction experiments further showed that semantically similar prompts may still omit reasoning-critical information required for stable denoising. Across tasks, BERTScore recall was consistently lower than precision, suggesting that compression failures are primarily driven by information omission rather than semantic drift. These findings indicate that prompt compression methods designed for autoregressive models do not transfer uniformly to diffusion large language models and motivate the development of diffusion-aware compression strategies.