Asymmetric Hierarchical Anchoring for Audio-Visual Joint Representation: Resolving Information Allocation Ambiguity for Robust Cross-Modal Generalization

📄 arXiv: 2602.03570v1 📥 PDF

作者: Bixing Wu, Yuhong Zhao, Zongli Ye, Jiachen Lian, Xiangyu Yue, Gopala Anumanchipalli

分类: cs.LG

发布日期: 2026-02-03

备注: 18 pages, 11 figures


💡 一句话要点

提出非对称分层锚定(AHA)方法,解决跨模态泛化中的信息分配歧义问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 跨模态泛化 音视频联合表示 非对称学习 分层锚定 对抗解耦 时间对齐 残差向量量化

📋 核心要点

  1. 现有对称音视频联合表示学习框架在跨模态泛化时存在信息分配歧义,导致语义泄露。
  2. 提出非对称分层锚定(AHA)方法,利用音频分层离散表示作为锚点,引导视频特征蒸馏,实现定向信息分配。
  3. 实验表明,AHA在跨模态迁移任务中优于对称基线,并提升了表示的语义一致性和解耦性。

📝 摘要(中文)

本文提出了一种用于跨模态泛化(CMG)的音视频联合表示学习方法,旨在通过统一的离散表示空间,将知识从有标签的源模态迁移到无标签的目标模态。现有的对称框架常常面临信息分配歧义的问题,缺乏结构化的归纳偏置导致跨模态的语义泄露。为此,我们提出了非对称分层锚定(AHA)方法,通过在共享层级结构中指定结构化的语义锚点,来强制执行定向的信息分配。具体实现上,我们利用音频残差向量量化(RVQ)诱导的分层离散表示来指导视频特征蒸馏到共享语义空间。为了确保表示的纯度,我们使用基于GRL的对抗解耦器取代脆弱的互信息估计器,显式地抑制模态特定分支中的语义泄露,并引入局部滑动对齐(LSA)来鼓励跨模态的细粒度时间对齐。在AVE和AVVP基准上的大量实验表明,AHA在跨模态迁移方面始终优于对称基线。对说话人脸解耦实验的额外分析进一步验证了学习到的表示具有更好的语义一致性和解耦性,表明了该框架更广泛的适用性。

🔬 方法详解

问题定义:论文旨在解决跨模态泛化(CMG)中音视频联合表示学习的信息分配歧义问题。现有的对称框架缺乏结构化的归纳偏置,导致不同模态之间出现语义泄露,影响跨模态迁移的性能。这种语义泄露使得模型难以学习到真正模态不变的表示,从而限制了其泛化能力。

核心思路:论文的核心思路是引入非对称的分层锚定机制,通过指定一个模态(音频)作为语义锚点,引导另一个模态(视频)的特征学习。这种非对称的设计强制执行定向的信息分配,避免了信息分配的歧义性,从而减少了语义泄露。同时,利用分层结构可以更好地捕捉不同粒度的语义信息。

技术框架:AHA框架主要包含以下几个模块:1) 音频编码器:使用残差向量量化(RVQ)提取音频的分层离散表示,作为语义锚点。2) 视频编码器:提取视频特征。3) 特征蒸馏模块:将视频特征蒸馏到由音频锚点引导的共享语义空间。4) 对抗解耦器:使用基于GRL的对抗训练,抑制模态特定分支中的语义泄露。5) 局部滑动对齐(LSA):鼓励跨模态的细粒度时间对齐。整体流程是,音频和视频分别经过编码器提取特征,然后视频特征在音频锚点的引导下进行蒸馏,并通过对抗解耦器和LSA进一步优化。

关键创新:论文的关键创新在于:1) 提出了非对称分层锚定(AHA)机制,通过定向的信息分配解决信息分配歧义问题。2) 使用基于GRL的对抗解耦器,显式地抑制模态特定分支中的语义泄露,相比于传统的互信息估计器更加稳定有效。3) 引入局部滑动对齐(LSA)模块,提升了跨模态的时间对齐精度。

关键设计:音频编码器使用RVQ提取分层离散表示,层数和码本大小是重要的超参数。对抗解耦器使用梯度反转层(GRL)实现对抗训练,需要仔细调整对抗损失的权重。LSA模块通过滑动窗口计算跨模态特征的相似度,窗口大小和滑动步长需要根据具体任务进行调整。损失函数包括特征蒸馏损失、对抗损失和对齐损失,需要平衡它们的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在AVE和AVVP基准测试中,AHA方法在跨模态迁移任务上始终优于对称基线。例如,在AVE数据集上,AHA相比于最佳对称基线取得了显著的性能提升。此外,在说话人脸解耦实验中,AHA学习到的表示具有更好的语义一致性和解耦性,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于音视频内容分析、跨模态检索、视频理解、语音识别等领域。例如,可以利用该方法训练一个鲁棒的音视频联合表示模型,用于识别视频中的事件或场景,即使在音频或视频质量较差的情况下也能保持较高的准确率。此外,该方法还可以用于生成更逼真的音视频内容,例如,根据给定的音频生成对应的视频。

📄 摘要(原文)

Audio-visual joint representation learning under Cross-Modal Generalization (CMG) aims to transfer knowledge from a labeled source modality to an unlabeled target modality through a unified discrete representation space. Existing symmetric frameworks often suffer from information allocation ambiguity, where the absence of structural inductive bias leads to semantic-specific leakage across modalities. We propose Asymmetric Hierarchical Anchoring (AHA), which enforces directional information allocation by designating a structured semantic anchor within a shared hierarchy. In our instantiation, we exploit the hierarchical discrete representations induced by audio Residual Vector Quantization (RVQ) to guide video feature distillation into a shared semantic space. To ensure representational purity, we replace fragile mutual information estimators with a GRL-based adversarial decoupler that explicitly suppresses semantic leakage in modality-specific branches, and introduce Local Sliding Alignment (LSA) to encourage fine-grained temporal alignment across modalities. Extensive experiments on AVE and AVVP benchmarks demonstrate that AHA consistently outperforms symmetric baselines in cross-modal transfer. Additional analyses on talking-face disentanglement experiment further validate that the learned representations exhibit improved semantic consistency and disentanglement, indicating the broader applicability of the proposed framework.