Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs

📄 arXiv: 2605.11605v1 📥 PDF

作者: Chaeyoung Jung, Kyeongha Rho, Joon Son Chung

分类: cs.CV, cs.AI

发布日期: 2026-05-12


💡 一句话要点

ContextGuard:面向Omni-LLM的上下文保持型Token剪枝框架,提升效率并保持性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Omni-LLM Token剪枝 多模态学习 上下文保持 视听融合

📋 核心要点

  1. 现有Omni-LLM剪枝方法易丢失与查询非强相关的上下文信息,影响模型对复杂场景的理解和推理能力。
  2. ContextGuard通过预测音频中的视觉语义,有选择地剪枝冗余的视频token,并保留关键的局部视觉细节,从而保持上下文完整性。
  3. 实验表明,ContextGuard在多个视听基准测试中,以更高的剪枝率超越现有方法,并在性能上接近甚至达到全token水平。

📝 摘要(中文)

Omnimodal大型语言模型(Omni-LLM)由于需要处理大量的多模态输入token,导致计算开销巨大,因此token缩减对于实际部署至关重要。现有的Omni-LLM剪枝方法通常选择对当前查询重要或与跨模态线索强对齐的token来降低成本。然而,这种策略可能会丢弃不符合这些标准的证据,即使这些证据对于不同的问题或理解超出对齐的视听线索的上下文是必要的。为了解决这个限制,我们将Omni-LLM token缩减重新定义为在移除跨模态冗余的同时,保持广泛的视听上下文。我们提出了ContextGuard,这是一个基于此原则的推理时token剪枝框架。ContextGuard从音频预测粗粒度的视觉语义,并剪枝那些粗粒度语义可能从音频中恢复的视频token,同时保留额外的视频token以保持音频无法单独指定的局部视觉细节。为了进一步压缩,我们的方法合并时间上相似的视频token。该框架不需要下游LLM微调,并且仅使用独立训练的轻量级预测器。在Qwen2.5-Omni和Video-SALMONN2+的3B和7B规模上,ContextGuard在六个视听基准测试中优于先前的推理时剪枝方法,同时剪枝更多的token。值得注意的是,在Qwen2.5-Omni 7B上,ContextGuard在六个基准测试中的五个上实现了完整的token级别性能,同时剪枝了55%的输入token。

🔬 方法详解

问题定义:Omni-LLM处理多模态数据时,输入token数量庞大,计算成本高昂,阻碍了实际部署。现有的token剪枝方法往往侧重于保留与当前查询或跨模态对齐的token,忽略了那些对于理解更广泛上下文或回答不同问题可能重要的信息,导致模型性能下降。

核心思路:ContextGuard的核心在于将token剪枝视为一个上下文保持问题,而非简单的信息提取。其基本思想是利用音频信息来预测视频中的粗粒度语义,并剪枝那些可以通过音频恢复的视频token,从而去除冗余信息。同时,保留那些音频无法提供的局部视觉细节,以确保上下文的完整性。

技术框架:ContextGuard框架主要包含以下几个步骤:1) 视觉语义预测:使用一个轻量级的独立训练的预测器,从音频输入中预测视频的粗粒度语义表示。2) Token剪枝:基于预测的视觉语义,判断哪些视频token是冗余的,可以被安全地剪枝。具体来说,如果一个视频token的语义可以从音频中恢复,那么它就被认为是冗余的。3) 局部细节保留:为了弥补粗粒度语义预测的不足,框架会保留一些额外的视频token,以捕捉音频无法提供的局部视觉细节。4) 时间相似性合并:为了进一步压缩token数量,框架会将时间上相似的视频token合并成一个token。

关键创新:ContextGuard的关键创新在于其上下文保持的剪枝策略。与以往方法不同,ContextGuard不是简单地选择“重要”的token,而是试图去除冗余的token,同时保留关键的上下文信息。这种策略使得模型能够在保持甚至提高性能的同时,显著减少计算成本。

关键设计:ContextGuard使用一个轻量级的预测器来从音频中预测视觉语义。这个预测器可以是一个简单的神经网络,例如多层感知机(MLP)或卷积神经网络(CNN)。损失函数的设计目标是最小化预测的视觉语义与实际视觉语义之间的差异。时间相似性合并可以通过计算相邻token之间的相似度来实现,例如使用余弦相似度或欧几里得距离。相似度高于某个阈值的token将被合并。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ContextGuard在Qwen2.5-Omni和Video-SALMONN2+的3B和7B规模上进行了评估,并在六个视听基准测试中取得了显著的成果。例如,在Qwen2.5-Omni 7B上,ContextGuard在五个基准测试中实现了与全token级别相当的性能,同时剪枝了55%的输入token。ContextGuard在所有测试中均优于现有的推理时剪枝方法,证明了其有效性。

🎯 应用场景

ContextGuard适用于各种需要处理多模态数据的Omni-LLM应用场景,例如智能助手、视频理解、自动驾驶等。通过降低计算成本,ContextGuard可以使这些应用在资源受限的设备上运行,并提高响应速度。该研究为未来多模态大模型的部署和应用提供了新的思路。

📄 摘要(原文)

Omnimodal Large Language Models (Omni-LLMs) incur substantial computational overhead due to the large number of multimodal input tokens they process, making token reduction essential for real-world deployment. Existing Omni-LLM pruning methods typically reduce this cost by selecting tokens that are important for the current query or strongly aligned with cross-modal cues. However, such strategies can discard evidence that falls outside these criteria, even when needed for different questions or for understanding context beyond aligned audio-visual cues. To address this limitation, we reframe Omni-LLM token reduction as preserving broad audio-visual context while removing cross-modal redundancy. We propose ContextGuard, an inference-time token pruning framework built on this principle. ContextGuard predicts coarse visual semantics from audio and prunes video tokens whose coarse semantics are likely recoverable from audio, while retaining additional video tokens to preserve localized visual details that audio alone cannot specify. For further compression, our method merges temporally similar video tokens. The framework requires no downstream LLM fine-tuning and uses only an independently trained lightweight predictor. On Qwen2.5-Omni and Video-SALMONN2+ at 3B and 7B scales across six audio-visual benchmarks, ContextGuard outperforms prior inference-time pruning methods while pruning more tokens. Notably, on Qwen2.5-Omni 7B, ContextGuard achieves full-token-level performance on five of six benchmarks while pruning 55% of input tokens.