Audio-Visual Exchange-Aware Token Pruning for Efficient Audio-Visual Captioning

📄 arXiv: 2606.10533v1 📥 PDF

作者: Zihan Meng, Dexiang Hong, Weidong Chen, Ziyu Zhou, Bo Hu, Zhendong Mao

分类: cs.CV

发布日期: 2026-06-09


💡 一句话要点

提出AVEX-Prune以解决音视频描述中的动态令牌修剪问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音视频描述 动态令牌修剪 多模态学习 强化学习 自然语言生成

📋 核心要点

  1. 现有的令牌修剪方法在选择有价值令牌时面临挑战,尤其是在决策边界附近的高混淆令牌。
  2. 本文提出AVEX-Prune,通过音视频令牌交换策略动态选择令牌,替换低置信度的令牌以提高生成质量。
  3. 实验结果表明,AVEX-Prune在VILA 1.5-8B和VideoLLaMA 2上以40%的保留率保持了高质量的生成效果。

📝 摘要(中文)

音视频描述任务旨在从视频和音频内容生成自然语言描述。尽管多模态大语言模型(LLMs)在此任务上取得了进展,但两种模态的输入令牌数量庞大,导致自注意力机制的计算复杂度呈平方级增长。现有的令牌修剪方法通常通过注意力、显著性或交叉熵损失来保留令牌,但硬阈值选择使得保留真正有价值的令牌变得困难,尤其是在决策边界附近的高混淆令牌。为此,本文提出了一种基于强化学习的动态令牌修剪方法AVEX-Prune,通过音视频令牌交换策略选择真正有价值的令牌,并在VILA 1.5-8B和VideoLLaMA 2上以40%的保留率保持了完整令牌的质量。

🔬 方法详解

问题定义:本文解决的是音视频描述任务中,现有令牌修剪方法难以有效保留有价值令牌的问题。现有方法通常依赖于硬阈值选择,导致在决策边界附近的高混淆令牌被错误保留或丢弃。

核心思路:AVEX-Prune的核心思路是通过音视频令牌交换策略,动态选择和替换低置信度的令牌,以提高生成描述的质量。该方法利用强化学习来评估令牌交换对生成结果的影响,从而选择最优的令牌组合。

技术框架:AVEX-Prune的整体架构包括令牌选择模块和生成模块。首先,通过音视频模态间的交互,评估每个令牌的置信度;然后,基于置信度进行动态令牌交换,最后将选定的令牌输入到生成模块中进行描述生成。

关键创新:AVEX-Prune的主要创新在于引入了音视频令牌交换策略,允许在同一模态或跨模态之间进行令牌替换,从而有效提高了令牌的选择质量,与传统的静态修剪方法形成鲜明对比。

关键设计:在设计中,AVEX-Prune使用了强化学习算法来评估令牌交换的效果,设置了适当的保留率(40%),并在损失函数中考虑了生成质量和令牌置信度的平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,AVEX-Prune在VILA 1.5-8B和VideoLLaMA 2上以40%的令牌保留率,生成质量保持在54.5与54.6、57.0与56.8之间,表现出色,验证了其有效性。

🎯 应用场景

该研究在音视频描述生成领域具有广泛的应用潜力,能够提升多模态内容的自动化理解和生成能力。未来,AVEX-Prune可应用于视频监控、自动字幕生成及多媒体内容创作等场景,推动相关技术的发展与应用。

📄 摘要(原文)

Audio-visual captioning generates natural language descriptions from video and audio content. Multimodal LLMs have advanced this task, but both modalities contribute many tokens to the LLM input, where prefill self-attention scales quadratically. Existing token-pruning methods usually retain tokens by attention, saliency, or cross-entropy loss, yet the hard threshold selection makes it difficult to retain tokens that are truly valuable, especially for high-confusing tokens near the decision boundary. To this end, we propose a AVEX-Prune, an RL-based audio-visual dynamic token pruning method in this work. In our AVEX-Prune, an audio-visual token exchange strategy is proposed to select truly valuable tokens by replacing low-confidence retained tokens with high-confidence candidate tokens from the same or the other modality, and measuring the differences in caption generation from token swaps. AVEX-Prune preserves full-token quality at a 40% retention ratio on both VILA 1.5-8B (54.5 vs. 54.6) and VideoLLaMA 2 (57.0 vs. 56.8).