Hierarchical Semantic Correlation-Aware Masked Autoencoder for Unsupervised Audio-Visual Representation Learning
作者: Donghuo Zeng, Hao Niu, Masato Taya
分类: cs.MM, cs.AI, cs.CV, cs.SD
发布日期: 2026-04-07
💡 一句话要点
提出HSC-MAE以解决无监督音视频表示学习中的对齐问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无监督学习 多模态表示 音视频对齐 层次语义 自编码器 教师-学生框架 信息论
📋 核心要点
- 现有无监督音视频表示学习方法面临多事件片段和虚假共现等挑战,难以实现有效的多模态对齐。
- HSC-MAE通过双路径教师-学生框架,利用层次语义相关性来增强音视频嵌入的对齐性,确保语义一致性。
- 在AVE和VEGAS数据集上的实验结果显示,HSC-MAE在mAP上显著超越了多个强基线,证明了其有效性。
📝 摘要(中文)
在弱配对、无标签的数据集中学习对齐的多模态嵌入是具有挑战性的:现有方法通常仅提供预提取特征,片段包含多个事件,并且存在虚假共现。本文提出HSC-MAE(层次语义相关感知掩蔽自编码器),一个双路径教师-学生框架,强制在三个互补的表示层次上保持语义一致性:全局级别的典范几何相关性、局部级别的邻域语义相关性和样本级别的条件充分性相关性。通过在AV和VEGAS数据集上的实验,HSC-MAE在强无监督基线之上显著提高了mAP,验证了其在音视频表示学习中的有效性。
🔬 方法详解
问题定义:本文旨在解决从弱配对、无标签数据集中学习对齐的音视频嵌入的问题。现有方法主要依赖于预提取特征,导致无法有效处理多事件片段和虚假共现现象。
核心思路:HSC-MAE采用双路径教师-学生框架,通过层次语义相关性来增强音视频嵌入的对齐性,确保在全局、局部和样本级别上保持语义一致性。
技术框架:整体架构包括学生MAE路径和教师EMA路径。学生路径通过掩蔽特征重建和加权软top-k InfoNCE进行训练,而教师路径则通过CCA对未掩蔽输入进行处理,以提供稳定的典范几何和软正样本。
关键创新:HSC-MAE的主要创新在于引入了层次语义相关性机制,分别在全局、局部和样本级别上进行对齐,从而有效提升了音视频嵌入的质量和结构化程度。
关键设计:设计中采用了可学习的多任务权重来调和竞争目标,并引入可选的蒸馏损失以将教师几何信息转移到学生模型中。
📊 实验亮点
在AVE和VEGAS数据集上的实验结果表明,HSC-MAE在mAP上显著提高,超越了多个强无监督基线,验证了其在音视频表示学习中的有效性和优势。
🎯 应用场景
该研究的潜在应用领域包括音视频检索、内容推荐和多模态理解等。通过提供更为鲁棒和结构化的音视频表示,HSC-MAE能够在实际应用中提升多模态数据的处理效率和准确性,推动相关技术的发展。
📄 摘要(原文)
Learning aligned multimodal embeddings from weakly paired, label-free corpora is challenging: pipelines often provide only pre-extracted features, clips contain multiple events, and spurious co-occurrences. We propose HSC-MAE (Hierarchical Semantic Correlation-Aware Masked Autoencoder), a dual-path teacher-student framework that enforces semantic consistency across three complementary levels of representation - from coarse to fine: (i) global-level canonical-geometry correlation via DCCA, which aligns audio and visual embeddings within a shared modality-invariant subspace; (ii) local-level neighborhood-semantics correlation via teacher-mined soft top-k affinities, which preserves multi-positive relational structure among semantically similar instances; and (iii) sample-level conditional-sufficiency correlation via masked autoencoding, which ensures individual embeddings retain discriminative semantic content under partial observation. Concretely, a student MAE path is trained with masked feature reconstruction and affinity-weighted soft top-k InfoNCE; an EMA teacher operating on unmasked inputs via the CCA path supplies stable canonical geometry and soft positives. Learnable multi-task weights reconcile competing objectives, and an optional distillation loss transfers teacher geometry into the student. Experiments on AVE and VEGAS demonstrate substantial mAP improvements over strong unsupervised baselines, validating that HSC-MAE yields robust and well-structured audio-visual representations.