Semantic Noise Reduction via Teacher-Guided Dual-Path Audio-Visual Representation Learning

作者: Linge Wang, Yingying Chen, Bingke Zhu, Lu Zhou, Jinqiao Wang

分类: cs.SD, cs.CV

发布日期: 2026-04-09

🔗 代码/项目: GITHUB

💡 一句话要点

提出TG-DP框架，通过解耦重建与对齐优化路径，提升音视频表征学习效果。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音视频表征学习 对比学习 掩码重建 跨模态对齐 教师引导 双路径框架 零样本检索

📋 核心要点

现有音视频表征学习方法在联合优化对比对齐和掩码重建时，对比分支易受重建任务的随机可见patches干扰，引入语义噪声。
TG-DP框架解耦重建与对齐的优化路径，对比分支采用更适合跨模态对齐的可见性模式，并引入教师模型进行指导。
TG-DP在零样本检索和线性探针任务中均取得了SOTA性能，验证了解耦优化路径和教师引导的有效性。

📝 摘要（中文）

近年来，音视频表征学习的研究进展表明，对比对齐与掩码重建的结合具有重要价值。然而，在单个前向传播过程中联合优化这些目标，迫使对比分支依赖于为重建设计的随机可见patches，而非跨模态对齐，从而引入了语义噪声和优化干扰。我们提出了TG-DP，一个教师引导的双路径框架，将重建和对齐解耦到单独的优化路径中。通过解耦两个分支的掩码机制，TG-DP使对比路径能够使用更适合跨模态对齐的可见性模式。教师模型进一步为该分支中可见tokens的组织提供辅助指导，有助于减少干扰并稳定跨模态表征学习。TG-DP在零样本检索中实现了最先进的性能。在AudioSet上，它将视频到音频检索的R@1从35.2％提高到37.4％，并将音频到视频检索的R@1从27.9％提高到37.1％。学习到的表征也保持了语义鲁棒性，在AS20K和VGGSound上实现了最先进的线性探针性能。总而言之，我们的结果表明，解耦多模态目标并将教师引导的结构引入对比路径，为改进大规模音视频预训练提供了一个有效的框架。

🔬 方法详解

问题定义：论文旨在解决音视频表征学习中，对比学习分支受到掩码重建任务的随机可见patches干扰，导致语义噪声和优化困难的问题。现有方法通常将对比对齐和掩码重建在单个前向传播中联合优化，这使得对比学习分支无法专注于跨模态对齐，而是被迫适应为重建任务设计的可见性模式，从而影响了学习到的表征质量。

核心思路：论文的核心思路是将重建和对齐解耦到单独的优化路径中，从而允许对比学习分支使用更适合跨模态对齐的可见性模式。此外，引入教师模型来指导对比学习分支中可见tokens的组织，以减少干扰并稳定跨模态表征学习。通过这种方式，可以更好地利用对比学习的优势，同时避免受到重建任务的负面影响。

技术框架：TG-DP框架包含两个主要路径：重建路径和对比路径。重建路径负责利用掩码重建目标学习音视频表征，而对比路径则专注于跨模态对齐。教师模型为对比路径提供辅助指导，帮助组织可见tokens。整体流程包括：首先，输入音视频数据；然后，数据分别进入重建路径和对比路径；重建路径使用标准的掩码重建方法进行训练；对比路径则使用教师模型提供的指导信息，并采用对比学习目标进行训练；最后，将两个路径学习到的表征进行融合，用于下游任务。

关键创新：TG-DP框架的关键创新在于解耦了重建和对齐的优化路径，并引入了教师模型来指导对比学习分支。这种解耦允许对比学习分支使用更适合跨模态对齐的可见性模式，从而减少了语义噪声和优化干扰。教师模型的引入则进一步稳定了跨模态表征学习，并提高了学习到的表征质量。与现有方法的本质区别在于，TG-DP不再将对比学习分支与重建任务紧密耦合，而是允许其独立地学习跨模态对齐。

关键设计：在对比路径中，可见性模式的设计至关重要，论文可能探索了不同的可见性模式，例如随机掩码、语义掩码等。教师模型的选择和训练方式也是关键，可能采用了预训练的音视频模型作为教师模型，并通过蒸馏等技术将知识传递给对比路径。损失函数方面，重建路径可能采用标准的掩码重建损失，而对比路径则可能采用InfoNCE等对比学习损失。具体的网络结构细节（例如Transformer的层数、隐藏层大小等）未知，但这些参数的选择也会影响最终的性能。

🖼️ 关键图片

📊 实验亮点

TG-DP在AudioSet数据集上实现了显著的性能提升，视频到音频检索的R@1从35.2%提高到37.4%，音频到视频检索的R@1从27.9%提高到37.1%。此外，TG-DP在AS20K和VGGSound数据集上实现了最先进的线性探针性能，表明学习到的表征具有良好的语义鲁棒性。这些实验结果充分验证了TG-DP框架的有效性。

🎯 应用场景

该研究成果可应用于音视频检索、音视频内容理解、跨模态情感分析等领域。例如，可以利用学习到的音视频表征进行零样本音视频检索，或用于提高视频内容理解的准确性。此外，该方法还可以应用于机器人领域，帮助机器人更好地理解周围环境中的声音和图像信息，从而实现更智能的交互。

📄 摘要（原文）

Recent advances in audio-visual representation learning have shown the value of combining contrastive alignment with masked reconstruction. However, jointly optimizing these objectives in a single forward pass forces the contrastive branch to rely on randomly visible patches designed for reconstruction rather than cross-modal alignment, introducing semantic noise and optimization interference. We propose TG-DP, a Teacher-Guided Dual-Path framework that decouples reconstruction and alignment into separate optimization paths. By disentangling the masking regimes of the two branches, TG-DP enables the contrastive pathway to use a visibility pattern better suited to cross-modal alignment. A teacher model further provides auxiliary guidance for organizing visible tokens in this branch, helping reduce interference and stabilize cross-modal representation learning. TG-DP achieves state-of-the-art performance in zero-shot retrieval. On AudioSet, it improves R@1 from 35.2\% to 37.4\% for video-to-audio retrieval and from 27.9\% to 37.1\% for audio-to-video retrieval. The learned representations also remain semantically robust, achieving state-of-the-art linear-probe performance on AS20K and VGGSound. Taken together, our results suggest that decoupling multimodal objectives and introducing teacher-guided structure into the contrastive pathway provide an effective framework for improving large-scale audio-visual pretraining. Code is available at https://github.com/wanglg20/TG-DP.

Semantic Noise Reduction via Teacher-Guided Dual-Path Audio-Visual Representation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理