Semantic Noise Reduction via Teacher-Guided Dual-Path Audio-Visual Representation Learning

📄 arXiv: 2604.08147v1 📥 PDF

作者: Linge Wang, Yingying Chen, Bingke Zhu, Lu Zhou, Jinqiao Wang

分类: cs.SD, cs.CV

发布日期: 2026-04-09

🔗 代码/项目: GITHUB


💡 一句话要点

提出TG-DP框架,通过解耦重建与对齐优化路径,提升音视频表征学习效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音视频表征学习 对比学习 掩码重建 跨模态对齐 教师引导 双路径框架 零样本检索

📋 核心要点

  1. 现有音视频表征学习方法在联合优化对比对齐和掩码重建时,对比分支易受重建任务的随机可见patches干扰,引入语义噪声。
  2. TG-DP框架解耦重建与对齐的优化路径,对比分支采用更适合跨模态对齐的可见性模式,并引入教师模型进行指导。
  3. TG-DP在零样本检索和线性探针任务中均取得了SOTA性能,验证了解耦优化路径和教师引导的有效性。

📝 摘要(中文)

近年来,音视频表征学习的研究进展表明,对比对齐与掩码重建的结合具有重要价值。然而,在单个前向传播过程中联合优化这些目标,迫使对比分支依赖于为重建设计的随机可见patches,而非跨模态对齐,从而引入了语义噪声和优化干扰。我们提出了TG-DP,一个教师引导的双路径框架,将重建和对齐解耦到单独的优化路径中。通过解耦两个分支的掩码机制,TG-DP使对比路径能够使用更适合跨模态对齐的可见性模式。教师模型进一步为该分支中可见tokens的组织提供辅助指导,有助于减少干扰并稳定跨模态表征学习。TG-DP在零样本检索中实现了最先进的性能。在AudioSet上,它将视频到音频检索的R@1从35.2%提高到37.4%,并将音频到视频检索的R@1从27.9%提高到37.1%。学习到的表征也保持了语义鲁棒性,在AS20K和VGGSound上实现了最先进的线性探针性能。总而言之,我们的结果表明,解耦多模态目标并将教师引导的结构引入对比路径,为改进大规模音视频预训练提供了一个有效的框架。

🔬 方法详解

问题定义:论文旨在解决音视频表征学习中,对比学习分支受到掩码重建任务的随机可见patches干扰,导致语义噪声和优化困难的问题。现有方法通常将对比对齐和掩码重建在单个前向传播中联合优化,这使得对比学习分支无法专注于跨模态对齐,而是被迫适应为重建任务设计的可见性模式,从而影响了学习到的表征质量。

核心思路:论文的核心思路是将重建和对齐解耦到单独的优化路径中,从而允许对比学习分支使用更适合跨模态对齐的可见性模式。此外,引入教师模型来指导对比学习分支中可见tokens的组织,以减少干扰并稳定跨模态表征学习。通过这种方式,可以更好地利用对比学习的优势,同时避免受到重建任务的负面影响。

技术框架:TG-DP框架包含两个主要路径:重建路径和对比路径。重建路径负责利用掩码重建目标学习音视频表征,而对比路径则专注于跨模态对齐。教师模型为对比路径提供辅助指导,帮助组织可见tokens。整体流程包括:首先,输入音视频数据;然后,数据分别进入重建路径和对比路径;重建路径使用标准的掩码重建方法进行训练;对比路径则使用教师模型提供的指导信息,并采用对比学习目标进行训练;最后,将两个路径学习到的表征进行融合,用于下游任务。

关键创新:TG-DP框架的关键创新在于解耦了重建和对齐的优化路径,并引入了教师模型来指导对比学习分支。这种解耦允许对比学习分支使用更适合跨模态对齐的可见性模式,从而减少了语义噪声和优化干扰。教师模型的引入则进一步稳定了跨模态表征学习,并提高了学习到的表征质量。与现有方法的本质区别在于,TG-DP不再将对比学习分支与重建任务紧密耦合,而是允许其独立地学习跨模态对齐。

关键设计:在对比路径中,可见性模式的设计至关重要,论文可能探索了不同的可见性模式,例如随机掩码、语义掩码等。教师模型的选择和训练方式也是关键,可能采用了预训练的音视频模型作为教师模型,并通过蒸馏等技术将知识传递给对比路径。损失函数方面,重建路径可能采用标准的掩码重建损失,而对比路径则可能采用InfoNCE等对比学习损失。具体的网络结构细节(例如Transformer的层数、隐藏层大小等)未知,但这些参数的选择也会影响最终的性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

TG-DP在AudioSet数据集上实现了显著的性能提升,视频到音频检索的R@1从35.2%提高到37.4%,音频到视频检索的R@1从27.9%提高到37.1%。此外,TG-DP在AS20K和VGGSound数据集上实现了最先进的线性探针性能,表明学习到的表征具有良好的语义鲁棒性。这些实验结果充分验证了TG-DP框架的有效性。

🎯 应用场景

该研究成果可应用于音视频检索、音视频内容理解、跨模态情感分析等领域。例如,可以利用学习到的音视频表征进行零样本音视频检索,或用于提高视频内容理解的准确性。此外,该方法还可以应用于机器人领域,帮助机器人更好地理解周围环境中的声音和图像信息,从而实现更智能的交互。

📄 摘要(原文)

Recent advances in audio-visual representation learning have shown the value of combining contrastive alignment with masked reconstruction. However, jointly optimizing these objectives in a single forward pass forces the contrastive branch to rely on randomly visible patches designed for reconstruction rather than cross-modal alignment, introducing semantic noise and optimization interference. We propose TG-DP, a Teacher-Guided Dual-Path framework that decouples reconstruction and alignment into separate optimization paths. By disentangling the masking regimes of the two branches, TG-DP enables the contrastive pathway to use a visibility pattern better suited to cross-modal alignment. A teacher model further provides auxiliary guidance for organizing visible tokens in this branch, helping reduce interference and stabilize cross-modal representation learning. TG-DP achieves state-of-the-art performance in zero-shot retrieval. On AudioSet, it improves R@1 from 35.2\% to 37.4\% for video-to-audio retrieval and from 27.9\% to 37.1\% for audio-to-video retrieval. The learned representations also remain semantically robust, achieving state-of-the-art linear-probe performance on AS20K and VGGSound. Taken together, our results suggest that decoupling multimodal objectives and introducing teacher-guided structure into the contrastive pathway provide an effective framework for improving large-scale audio-visual pretraining. Code is available at https://github.com/wanglg20/TG-DP.