CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment
作者: Edson Araujo, Andrew Rouditchenko, Yuan Gong, Saurabhchand Bhati, Samuel Thomas, Brian Kingsbury, Leonid Karlinsky, Rogerio Feris, James R. Glass, Hilde Kuehne
分类: cs.MM, cs.CV, cs.SD, eess.AS
发布日期: 2025-05-02 (更新: 2025-05-21)
备注: To be published at CVPR 2025, code available at https://github.com/edsonroteia/cav-mae-sync
💡 一句话要点
CAV-MAE Sync:通过细粒度对齐改进对比音视频掩码自编码器
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 音视频学习 自监督学习 掩码自编码器 对比学习 细粒度对齐
📋 核心要点
- 现有音视频学习方法依赖全局音频表示,无法捕捉与视频帧的细粒度时间对应关系。
- CAV-MAE Sync通过将音频视为时间序列,并分离对比和重建目标来解决粒度不匹配和优化冲突。
- 实验表明,该方法在零样本检索、分类和定位任务上优于现有方法,达到state-of-the-art性能。
📝 摘要(中文)
本文提出CAV-MAE Sync,作为原始CAV-MAE框架的简单而有效的扩展,用于自监督音视频学习。该方法解决了三个关键挑战:首先,通过将音频视为与视频帧对齐的时间序列,而非使用全局表示,从而解决了模态之间的粒度不匹配问题。其次,通过专用的全局tokens分离对比和重建目标,从而解决了冲突的优化目标。第三,通过引入可学习的register tokens来减少patch tokens上的语义负载,从而提高了空间定位能力。在AudioSet、VGG Sound和ADE20K Sound数据集上的零样本检索、分类和定位任务的评估表明,该方法达到了最先进的性能,并优于更复杂的架构。
🔬 方法详解
问题定义:现有音视频学习方法通常使用全局音频表示,忽略了音频和视频帧之间的细粒度时间对应关系。此外,联合学习重建和跨模态对齐时,优化目标容易冲突,影响学习效果。
核心思路:CAV-MAE Sync的核心思路是通过细粒度对齐音频和视频,并分离对比学习和重建任务,从而提升音视频表征学习的效果。具体来说,将音频视为与视频帧对齐的时间序列,而非全局表示,从而捕捉更精细的时间对应关系。同时,使用不同的tokens处理对比学习和重建任务,避免优化目标冲突。
技术框架:CAV-MAE Sync的整体框架基于Masked Autoencoder (MAE)。它包含以下主要模块:1) 音视频编码器:分别对音频和视频进行编码,将音频视为与视频帧对齐的时间序列。2) Masking:对输入进行随机mask。3) 全局Tokens:引入全局tokens,用于对比学习,学习跨模态的全局信息。4) Register Tokens:引入可学习的register tokens,用于提高空间定位能力,减轻patch tokens的语义负担。5) 解码器:根据masked的输入和全局tokens,重建原始输入。
关键创新:该论文的关键创新在于:1) 提出了细粒度的音视频对齐方法,将音频视为与视频帧对齐的时间序列,而非全局表示。2) 通过分离对比学习和重建任务,解决了优化目标冲突的问题。3) 引入了可学习的register tokens,提高了空间定位能力。
关键设计:在音频处理方面,将音频分割成与视频帧对应的时间片段。在损失函数方面,使用对比损失来对齐音视频表示,并使用重建损失来学习模态内的信息。Register tokens的数量和维度是需要调整的关键参数,以平衡计算复杂度和定位能力。
🖼️ 关键图片
📊 实验亮点
CAV-MAE Sync在AudioSet、VGG Sound和ADE20K Sound数据集上进行了评估,在零样本检索、分类和定位任务上均取得了state-of-the-art的性能。例如,在AudioSet数据集上,该方法在零样本检索任务上优于其他方法,取得了显著的提升。
🎯 应用场景
该研究成果可应用于音视频内容分析、智能监控、机器人感知等领域。例如,可以用于识别视频中的声音事件,帮助机器人理解周围环境,或者用于音视频检索,根据声音内容检索相关视频片段。未来,该方法有望进一步提升音视频理解的准确性和效率。
📄 摘要(原文)
Recent advances in audio-visual learning have shown promising results in learning representations across modalities. However, most approaches rely on global audio representations that fail to capture fine-grained temporal correspondences with visual frames. Additionally, existing methods often struggle with conflicting optimization objectives when trying to jointly learn reconstruction and cross-modal alignment. In this work, we propose CAV-MAE Sync as a simple yet effective extension of the original CAV-MAE framework for self-supervised audio-visual learning. We address three key challenges: First, we tackle the granularity mismatch between modalities by treating audio as a temporal sequence aligned with video frames, rather than using global representations. Second, we resolve conflicting optimization goals by separating contrastive and reconstruction objectives through dedicated global tokens. Third, we improve spatial localization by introducing learnable register tokens that reduce semantic load on patch tokens. We evaluate the proposed approach on AudioSet, VGG Sound, and the ADE20K Sound dataset on zero-shot retrieval, classification and localization tasks demonstrating state-of-the-art performance and outperforming more complex architectures.