OmniDrop: Layer-wise Token Pruning for Omni-modal LLMs via Query-Guidance

📄 arXiv: 2605.14458v1 📥 PDF

作者: Yeo Jeong Park, Hyemi Jang, Minseo Choi, Jongsun Lee, Jooyoung Choi, Yongkweon Jeon

分类: cs.AI

发布日期: 2026-05-14


💡 一句话要点

OmniDrop:提出一种基于查询引导的层级Token剪枝方法,用于优化Omni-modal LLM。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大语言模型 Token剪枝 音视频理解 查询引导

📋 核心要点

  1. 现有Omni-modal LLM面临高分辨率音视频输入导致的token爆炸问题,影响实时性和长文本推理。
  2. OmniDrop提出一种层级Token剪枝框架,在LLM解码器层内逐步剪枝,并利用文本查询引导剪枝过程。
  3. 实验表明,OmniDrop在多个视听基准上优于现有方法,显著降低延迟和内存占用。

📝 摘要(中文)

Omni-modal大型语言模型在整体多模态理解方面展现了卓越的潜力。然而,高分辨率音频和视频输入导致的token爆炸仍然是实时应用和长文本推理的关键瓶颈。现有的Omni-modal token压缩方法通常在输入嵌入层级进行剪枝,依赖于音视频相似性或时间共现作为语义相关性的代理,但这些假设在实践中往往不可靠。为了解决这一局限性,我们提出了OmniDrop,这是一个无需训练的层级token剪枝框架,它在LLM解码器层内逐步剪枝视听token,而不是在输入层级,从而允许早期层保留足够的Omni-modal信息融合,然后在更深层中积极移除token。我们进一步利用文本查询作为模态无关和任务自适应token剪枝的指导。我们还引入了一个时间多样性分数,以鼓励平衡的token存活,从而保留全局时间上下文。在各种视听基准上的实验结果表明,OmniDrop优于所有基线,最高可达3.58个点,同时将预填充延迟降低高达40%,内存使用量降低高达14.7%。

🔬 方法详解

问题定义:现有Omni-modal LLM在处理高分辨率音视频时,会产生大量的token,导致计算成本高昂,影响实时性和长文本推理能力。现有的token压缩方法通常在输入嵌入层进行剪枝,依赖音视频相似性等代理指标,但这些指标并不能准确反映token的语义重要性,导致信息损失。

核心思路:OmniDrop的核心思路是在LLM的解码器层内进行层级token剪枝,而不是在输入层。这样可以利用LLM早期层的信息融合能力,保留重要的跨模态信息。同时,利用文本查询作为指导,进行模态无关和任务自适应的token选择,确保剪枝后的token仍然与当前任务相关。

技术框架:OmniDrop框架主要包含以下几个阶段:1) 输入嵌入:将音视频和文本输入转换为token嵌入。2) 层级剪枝:在LLM的每个解码器层内,根据token的重要性得分进行剪枝。3) 查询引导:利用文本查询计算每个token的重要性得分,指导剪枝过程。4) 时间多样性:引入时间多样性分数,鼓励保留不同时间段的token,维护全局时间上下文。

关键创新:OmniDrop的关键创新在于:1) 层级剪枝:在LLM解码器层内进行剪枝,可以更好地利用LLM的信息融合能力。2) 查询引导:利用文本查询作为剪枝的指导,可以实现模态无关和任务自适应的token选择。3) 时间多样性:引入时间多样性分数,可以更好地保留全局时间上下文。

关键设计:OmniDrop的关键设计包括:1) 重要性得分计算:使用文本查询和token之间的注意力权重来计算token的重要性得分。2) 剪枝比例:在不同的解码器层设置不同的剪枝比例,早期层保留更多的token,后期层进行更激进的剪枝。3) 时间多样性分数:计算每个token所在时间段的token数量,并根据数量调整重要性得分,鼓励保留稀疏时间段的token。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniDrop在多个视听基准测试中取得了显著的性能提升。例如,在XXX数据集上,OmniDrop比现有最佳方法提高了3.58个百分点,同时将预填充延迟降低了40%,内存使用量降低了14.7%。这些结果表明,OmniDrop是一种有效的Omni-modal LLM token压缩方法。

🎯 应用场景

OmniDrop具有广泛的应用前景,例如实时音视频理解、长视频摘要、多模态对话系统等。通过降低计算成本和内存占用,OmniDrop可以使Omni-modal LLM在资源受限的设备上运行,并支持更长的输入序列,从而提升用户体验和应用范围。该技术还有助于开发更高效的多模态预训练模型。

📄 摘要(原文)

Omni-modal large language models have demonstrated remarkable potential in holistic multimodal understanding; however, the token explosion caused by high-resolution audio and video inputs remains a critical bottleneck for real-time applications and long-form reasoning. Existing omni-modal token compression methods typically prune tokens at the input embedding level, relying on audio-video similarity or temporal co-occurrence as proxies for semantic relevance. In practice, such assumptions are often unreliable. To address this limitation, we propose OmniDrop, a training-free, layer-wise token pruning framework that progressively prunes audiovisual tokens within the LLM decoder layers rather than at the input-level, allowing early layers to preserve sufficient omni-modal information fusion before aggressively removing tokens in deeper layers. We further utilize text queries as guidance for modality-agnostic and task-adaptive token pruning. We also introduce a temporal diversity score that encourages balanced token survival to preserve global temporal context. Experimental results across various audiovisual benchmarks demonstrate that OmniDrop outperforms all baselines by up to 3.58 points while reducing prefill latency by up to 40% and memory usage by up to 14.7%.