OmniSelect: Dynamic Modality-Aware Token Compression for Efficient Omni-modal Large Language Models
作者: Morunliu Yang, Ruotao Xu, Le Li, Yue Wang, Jianxin Zhang, Juntao Li, Yihang Lou, Siwei Feng, Peifeng Li
分类: cs.CV
发布日期: 2026-05-18
💡 一句话要点
提出OmniSelect,用于高效OmniLLM的动态模态感知Token压缩
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大模型 Token压缩 模态感知 动态剪枝 音视频理解
📋 核心要点
- 现有OmniLLM的token压缩方法依赖固定模态指导,忽略了不同查询下模态重要性的差异。
- OmniSelect利用AudioCLIP估计跨模态相关性,动态选择音频中心、视频中心或均匀剪枝策略。
- 实验表明,OmniSelect在高效压缩token的同时,保持了模型性能,且无需额外训练。
📝 摘要(中文)
OmniLLMs在统一音视频理解方面日益受到关注。然而,处理长多模态token序列会带来巨大的计算开销,因此高效的token压缩至关重要。现有方法通常依赖于固定的、特定于模态的指导,无法考虑到不同查询中模态的重要性变化。为了解决这个限制,我们提出了OmniSelect,一个无需训练的、模态自适应的token剪枝框架,可以为多模态输入动态选择合适的压缩策略。具体来说,我们利用轻量级的AudioCLIP模型来估计跨模态相关性,并将每个输入分为三种剪枝模式:以音频为中心、以视频为中心和均匀剪枝。基于这些相关性分数,OmniSelect进一步在每个时间组内执行细粒度的token剪枝,自适应地分配剪枝比例,以保留跨模态的信息丰富的token。通过显式地建模模态偏好并启用动态策略选择,OmniSelect有效地避免了一刀切压缩的缺陷。大量实验表明,我们的方法实现了高效的多模态token减少,同时保持了强大的性能,而无需任何额外的训练。
🔬 方法详解
问题定义:OmniLLM在处理长序列多模态数据时面临巨大的计算开销,现有的token压缩方法无法根据不同查询动态调整各模态的重要性,导致压缩效率和性能受限。
核心思路:论文的核心思路是根据输入数据的模态相关性,动态地选择合适的token压缩策略。通过估计音频和视频模态之间的相关性,自适应地调整各模态的token剪枝比例,从而保留更重要的信息。
技术框架:OmniSelect框架主要包含以下几个步骤:1) 使用AudioCLIP模型计算音频和视频模态之间的相关性得分;2) 根据相关性得分将输入数据分为三种剪枝模式:音频中心、视频中心和均匀剪枝;3) 在每个时间组内,根据选择的剪枝模式,自适应地分配各模态的token剪枝比例,进行细粒度的token剪枝。
关键创新:OmniSelect的关键创新在于其动态模态感知的token压缩策略。与传统的固定压缩策略不同,OmniSelect能够根据输入数据的模态相关性,自适应地调整各模态的token剪枝比例,从而更好地保留重要信息,提高压缩效率和模型性能。
关键设计:OmniSelect使用预训练的AudioCLIP模型来估计跨模态相关性,该模型计算效率高,无需额外训练。根据相关性得分,使用简单的阈值划分方法将输入数据分为三种剪枝模式。在token剪枝过程中,采用细粒度的剪枝策略,在每个时间组内独立地分配各模态的剪枝比例。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OmniSelect能够在显著减少token数量的同时,保持甚至提升模型的性能。与现有方法相比,OmniSelect在多个多模态benchmark上取得了更好的结果,并且无需额外的训练,具有很强的实用性。
🎯 应用场景
OmniSelect可应用于各种需要处理长序列多模态数据的场景,例如视频理解、语音识别、多模态对话等。通过高效的token压缩,可以降低计算成本,提高模型推理速度,使其更容易部署在资源受限的设备上。该研究有助于推动多模态大模型在实际应用中的普及。
📄 摘要(原文)
Omnimodal large language models (OmniLLMs) have recently gained increasing attention for unified audio-video understanding. However, processing long multimodal token sequences introduces substantial computational overhead, making efficient token compression crucial. Existing methods typically rely on fixed, modality-specific guidance, which fails to account for the varying importance of modalities across different queries. To address this limitation, we propose $\textbf{OmniSelect}$, a training-free, modality-adaptive token pruning framework that dynamically selects appropriate compression strategies for multimodal inputs. Specifically, we leverage a lightweight AudioCLIP model to estimate cross-modal relevance and categorize each input into three pruning regimes: Audio-Centric, Video-Centric, and Uniform pruning. Based on these relevance scores, OmniSelect further performs fine-grained token pruning within each temporal group, adaptively allocating pruning ratios to preserve informative tokens across modalities. By explicitly modeling modality preference and enabling dynamic strategy selection, OmniSelect effectively avoids the pitfalls of one-size-fits-all compression. Extensive experiments demonstrate that our method achieves efficient multimodal token reduction while maintaining strong performance, without requiring any additional training.