Audio-Visual Exchange-Aware Token Pruning for Efficient Audio-Visual Captioning

作者: Zihan Meng, Dexiang Hong, Weidong Chen, Ziyu Zhou, Bo Hu, Zhendong Mao

分类: cs.CV

发布日期: 2026-06-09

💡 一句话要点

提出AVEX-Prune以解决音视频描述中的动态令牌修剪问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音视频描述 动态令牌修剪 多模态学习 强化学习 自然语言生成

📋 核心要点

现有的令牌修剪方法在选择有价值令牌时面临挑战，尤其是在决策边界附近的高混淆令牌。
本文提出AVEX-Prune，通过音视频令牌交换策略动态选择令牌，替换低置信度的令牌以提高生成质量。
实验结果表明，AVEX-Prune在VILA 1.5-8B和VideoLLaMA 2上以40%的保留率保持了高质量的生成效果。

📝 摘要（中文）

音视频描述任务旨在从视频和音频内容生成自然语言描述。尽管多模态大语言模型（LLMs）在此任务上取得了进展，但两种模态的输入令牌数量庞大，导致自注意力机制的计算复杂度呈平方级增长。现有的令牌修剪方法通常通过注意力、显著性或交叉熵损失来保留令牌，但硬阈值选择使得保留真正有价值的令牌变得困难，尤其是在决策边界附近的高混淆令牌。为此，本文提出了一种基于强化学习的动态令牌修剪方法AVEX-Prune，通过音视频令牌交换策略选择真正有价值的令牌，并在VILA 1.5-8B和VideoLLaMA 2上以40%的保留率保持了完整令牌的质量。

🔬 方法详解

问题定义：本文解决的是音视频描述任务中，现有令牌修剪方法难以有效保留有价值令牌的问题。现有方法通常依赖于硬阈值选择，导致在决策边界附近的高混淆令牌被错误保留或丢弃。

核心思路：AVEX-Prune的核心思路是通过音视频令牌交换策略，动态选择和替换低置信度的令牌，以提高生成描述的质量。该方法利用强化学习来评估令牌交换对生成结果的影响，从而选择最优的令牌组合。

技术框架：AVEX-Prune的整体架构包括令牌选择模块和生成模块。首先，通过音视频模态间的交互，评估每个令牌的置信度；然后，基于置信度进行动态令牌交换，最后将选定的令牌输入到生成模块中进行描述生成。

关键创新：AVEX-Prune的主要创新在于引入了音视频令牌交换策略，允许在同一模态或跨模态之间进行令牌替换，从而有效提高了令牌的选择质量，与传统的静态修剪方法形成鲜明对比。

关键设计：在设计中，AVEX-Prune使用了强化学习算法来评估令牌交换的效果，设置了适当的保留率（40%），并在损失函数中考虑了生成质量和令牌置信度的平衡。

🖼️ 关键图片

📊 实验亮点

实验结果显示，AVEX-Prune在VILA 1.5-8B和VideoLLaMA 2上以40%的令牌保留率，生成质量保持在54.5与54.6、57.0与56.8之间，表现出色，验证了其有效性。

🎯 应用场景

该研究在音视频描述生成领域具有广泛的应用潜力，能够提升多模态内容的自动化理解和生成能力。未来，AVEX-Prune可应用于视频监控、自动字幕生成及多媒体内容创作等场景，推动相关技术的发展与应用。

📄 摘要（原文）

Audio-visual captioning generates natural language descriptions from video and audio content. Multimodal LLMs have advanced this task, but both modalities contribute many tokens to the LLM input, where prefill self-attention scales quadratically. Existing token-pruning methods usually retain tokens by attention, saliency, or cross-entropy loss, yet the hard threshold selection makes it difficult to retain tokens that are truly valuable, especially for high-confusing tokens near the decision boundary. To this end, we propose a AVEX-Prune, an RL-based audio-visual dynamic token pruning method in this work. In our AVEX-Prune, an audio-visual token exchange strategy is proposed to select truly valuable tokens by replacing low-confidence retained tokens with high-confidence candidate tokens from the same or the other modality, and measuring the differences in caption generation from token swaps. AVEX-Prune preserves full-token quality at a 40% retention ratio on both VILA 1.5-8B (54.5 vs. 54.6) and VideoLLaMA 2 (57.0 vs. 56.8).

Audio-Visual Exchange-Aware Token Pruning for Efficient Audio-Visual Captioning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理