EchoingPixels: Cross-Modal Adaptive Token Reduction for Efficient Audio-Visual LLMs
作者: Chao Gong, Depeng Wang, Zhipeng Wei, Ya Guo, Huijia Zhu, Jingjing Chen
分类: cs.CV
发布日期: 2025-12-11
💡 一句话要点
提出EchoingPixels,通过跨模态自适应Token缩减,提升音视频LLM效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音视频LLM Token缩减 跨模态学习 自适应预算 时间建模
📋 核心要点
- 现有音视频LLM面临计算开销巨大问题,单模态Token缩减方法无法有效利用跨模态信息。
- EchoingPixels通过跨模态语义筛选器(CS2)实现音视频tokens的联合处理和自适应缩减。
- 实验表明,EchoingPixels仅用5-20%的tokens即可达到与基线相当的性能,并加速2-3倍。
📝 摘要(中文)
音视频大语言模型(AV-LLMs)面临着来自海量音频和视频tokens的巨大计算开销。虽然token缩减在纯视频LLMs中得到了广泛研究,但对于音视频领域来说仍然不足,因为这些单模态方法无法利用音视频跨模态的协同作用。此外,音频和视频的不同且动态的信息密度使得每种模态的静态预算变得次优。因此,如何在联合音视频流上执行token缩减仍然是一个未解决的瓶颈。为了填补这一空白,我们引入了EchoingPixels,一个受到现实世界场景中视觉和声音共存和交互启发的框架。我们框架的核心是跨模态语义筛选器(CS2),它能够实现早期的音视频交互。CS2并非独立压缩模态,而是共同关注联合多模态流,并从整个音视频tokens的组合池中减少tokens,而不是使用每种模态的固定预算。这种单池方法使其能够自适应地在两种模态之间分配token预算,并动态地协同识别显著的tokens。为了确保这种激进的缩减保留重要的时间建模能力,我们共同设计了一个同步增强RoPE(Sync-RoPE),以保持稀疏选择的tokens的关键时间关系。大量的实验表明,EchoingPixels仅使用原始tokens的5-20%就实现了与强大基线相当的性能,并实现了2-3倍的加速和内存减少。
🔬 方法详解
问题定义:音视频大语言模型(AV-LLMs)处理海量音视频数据时,计算开销巨大。现有的token缩减方法主要针对单模态数据,无法有效利用音视频之间的跨模态信息,且为每种模态分配固定token预算的方式不够灵活,无法适应动态变化的信息密度。
核心思路:受到现实世界中视觉和声音相互作用的启发,EchoingPixels的核心思想是让音频和视频信息尽早交互,并共同决定哪些tokens应该被保留。通过跨模态的联合处理,模型可以更好地识别重要的tokens,并自适应地分配计算资源。
技术框架:EchoingPixels框架主要包含两个核心模块:跨模态语义筛选器(CS2)和同步增强RoPE(Sync-RoPE)。CS2负责对音视频tokens进行联合处理和缩减,Sync-RoPE则用于在缩减后的tokens中保持关键的时间关系。整体流程是:首先,音视频数据经过特征提取后,输入到CS2中进行跨模态交互和token缩减;然后,缩减后的tokens通过Sync-RoPE进行时间建模;最后,将处理后的tokens输入到LLM中进行下游任务。
关键创新:EchoingPixels的关键创新在于跨模态语义筛选器(CS2)。与传统的单模态token缩减方法不同,CS2将音频和视频tokens放在一个统一的池子中进行处理,并根据跨模态信息的重要性自适应地选择tokens。这种方法能够更好地利用音视频之间的协同作用,并动态地调整每种模态的token预算。
关键设计:CS2模块使用多头注意力机制(Multi-Head Attention)来实现跨模态交互。具体来说,CS2首先将音频和视频tokens拼接在一起,然后通过多头注意力机制计算每个token的重要性得分。根据得分,CS2选择最重要的tokens,并丢弃其余的tokens。Sync-RoPE通过在RoPE中引入同步信息,来保持缩减后的tokens的时间关系。具体来说,Sync-RoPE在计算位置编码时,考虑了相邻tokens之间的同步关系,从而更好地保留了时间信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EchoingPixels在保持与强大基线相当的性能的前提下,仅使用原始tokens的5-20%,实现了2-3倍的加速和内存减少。这表明EchoingPixels能够有效地降低音视频LLM的计算开销,并提高效率。
🎯 应用场景
EchoingPixels可应用于各种需要处理音视频数据的场景,如智能监控、视频会议、自动驾驶、多媒体内容分析等。通过降低计算开销,该方法可以使音视频LLM在资源受限的设备上运行,并提高处理速度,从而实现更高效、更智能的音视频应用。
📄 摘要(原文)
Audio-Visual Large Language Models (AV-LLMs) face prohibitive computational overhead from massive audio and video tokens. Token reduction, while extensively explored for video-only LLMs, is insufficient for the audio-visual domain, as these unimodal methods cannot leverage audio-visual cross-modal synergies. Furthermore, the distinct and dynamic information densities of audio and video render static budgets per modality suboptimal. How to perform token reduction on a joint audio-visual stream thus remains an unaddressed bottleneck. To fill this gap, we introduce EchoingPixels, a framework inspired by the coexistence and interaction of visuals and sound in real-world scenes. The core of our framework is the Cross-Modal Semantic Sieve (CS2), a module enabling early audio-visual interaction. Instead of compressing modalities independently, CS2 co-attends to the joint multimodal stream and reduces tokens from an entire combined pool of audio-visual tokens rather than using fixed budgets per modality. This single-pool approach allows it to adaptively allocate the token budget across both modalities and dynamically identify salient tokens in concert. To ensure this aggressive reduction preserves the vital temporal modeling capability, we co-design a Synchronization-Augmented RoPE (Sync-RoPE) to maintain critical temporal relationships for the sparsely selected tokens. Extensive experiments demonstrate that EchoingPixels achieves performance comparable to strong baselines using only 5-20% of the original tokens, with a 2-3x speedup and memory reduction.