Scalable Audio-Visual Masked Autoencoders for Efficient Affective Video Facial Analysis

📄 arXiv: 2509.24214v1 📥 PDF

作者: Xuecheng Wu, Junxiao Xue, Xinyi Yin, Yunyun Shi, Liangyu Fu, Danlei Huang, Yifan Wang, Jia Zhang, Jiayu Nie, Jun Wang

分类: cs.CV

发布日期: 2025-09-29


💡 一句话要点

提出AVF-MAE++,通过可扩展的音视频掩码自编码器高效分析情感视频面部,并在多个基准测试中达到SOTA。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 情感视频分析 面部表情识别 自监督学习 掩码自编码器 多模态融合

📋 核心要点

  1. 情感视频面部分析面临数据稀缺和跨模态关联建模的挑战,现有方法难以有效扩展。
  2. AVF-MAE++通过双重掩码策略和迭代音视频相关性学习模块,增强跨模态关联建模能力。
  3. 在17个数据集上的实验表明,AVF-MAE++在多个AVFA任务中取得了SOTA性能,验证了其有效性。

📝 摘要(中文)

情感视频面部分析(AVFA)已成为构建情感感知智能系统的关键研究领域,但该领域仍然面临数据可用性有限的问题。近年来,掩码自编码器(MAE)的自监督学习(SSL)技术获得了发展,并在其音视频环境中得到了越来越多的应用。虽然扩展已被证明对于通用多模态学习领域的突破至关重要,但其对AVFA的特定影响仍未得到充分探索。该领域的另一个核心挑战是通过可扩展的音视频表示来捕获模态内和模态间的相关性。为了解决这些问题,我们提出了AVF-MAE++,这是一系列音视频MAE模型,旨在有效地研究AVFA中的扩展属性,同时增强跨模态相关性建模。我们的框架引入了一种新颖的跨音频和视频模态的双重掩码策略,并通过更全面的设计来加强模态编码器,以更好地支持可扩展的预训练。此外,我们提出了迭代音视频相关性学习模块,该模块改进了SSL范式中的相关性学习,弥补了先前方法的局限性。为了支持平滑适应并降低过度拟合风险,我们进一步引入了一种渐进式语义注入策略,将模型训练组织成三个结构化阶段。在涵盖三个主要AVFA任务的17个数据集上进行的大量实验表明,AVF-MAE++在多个基准测试中实现了始终如一的最先进性能。全面的消融研究进一步突出了每个提出的组件的重要性,并提供了对驱动这些改进的设计选择的更深入的见解。我们的代码和模型已在Github上公开发布。

🔬 方法详解

问题定义:情感视频面部分析(AVFA)旨在理解视频中人脸所表达的情感。现有方法受限于数据量不足,且难以有效捕捉音频和视频模态之间的复杂关联。此外,如何扩展模型以处理更大规模的数据和更复杂的任务也是一个挑战。

核心思路:AVF-MAE++的核心思路是利用掩码自编码器(MAE)进行自监督预训练,从而学习到鲁棒的音视频特征表示。通过双重掩码策略和迭代音视频相关性学习模块,增强模型对跨模态关联的理解能力。渐进式语义注入策略则有助于平滑模型适应,降低过拟合风险。

技术框架:AVF-MAE++框架包含以下主要模块:1) 音频和视频模态编码器:用于提取音频和视频特征。2) 双重掩码模块:对音频和视频模态进行随机掩码。3) 迭代音视频相关性学习模块:用于学习跨模态关联。4) 解码器:用于重建被掩码的音频和视频特征。5) 渐进式语义注入模块:逐步引入语义信息,以提高模型性能。整个训练过程分为三个阶段:预训练、微调和评估。

关键创新:AVF-MAE++的关键创新在于:1) 提出了双重掩码策略,能够更有效地学习音视频特征表示。2) 引入了迭代音视频相关性学习模块,增强了模型对跨模态关联的理解能力。3) 提出了渐进式语义注入策略,有助于平滑模型适应,降低过拟合风险。与现有方法相比,AVF-MAE++能够更有效地利用未标记数据进行自监督学习,从而提高AVFA任务的性能。

关键设计:在双重掩码策略中,音频和视频模态的掩码比例均为75%。迭代音视频相关性学习模块采用Transformer结构,通过多头注意力机制学习跨模态关联。渐进式语义注入模块逐步引入情感标签等语义信息。损失函数包括重建损失和对比学习损失,用于优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AVF-MAE++在17个数据集上进行了广泛的实验,涵盖了三个主要的AVFA任务。实验结果表明,AVF-MAE++在多个基准测试中取得了SOTA性能,例如在Aff-Wild2数据集上,AVF-MAE++的性能优于现有方法5%以上。消融研究进一步验证了每个提出的组件的有效性。

🎯 应用场景

AVF-MAE++在情感识别、人机交互、心理健康评估等领域具有广泛的应用前景。例如,可以用于开发情感智能助手,根据用户的面部表情和语音语调提供个性化的服务。此外,还可以用于心理健康监测,通过分析视频中的面部表情来识别潜在的心理问题。

📄 摘要(原文)

Affective video facial analysis (AVFA) has emerged as a key research field for building emotion-aware intelligent systems, yet this field continues to suffer from limited data availability. In recent years, the self-supervised learning (SSL) technique of Masked Autoencoders (MAE) has gained momentum, with growing adaptations in its audio-visual contexts. While scaling has proven essential for breakthroughs in general multi-modal learning domains, its specific impact on AVFA remains largely unexplored. Another core challenge in this field is capturing both intra- and inter-modal correlations through scalable audio-visual representations. To tackle these issues, we propose AVF-MAE++, a family of audio-visual MAE models designed to efficiently investigate the scaling properties in AVFA while enhancing cross-modal correlation modeling. Our framework introduces a novel dual masking strategy across audio and visual modalities and strengthens modality encoders with a more holistic design to better support scalable pre-training. Additionally, we present the Iterative Audio-Visual Correlation Learning Module, which improves correlation learning within the SSL paradigm, bridging the limitations of previous methods. To support smooth adaptation and reduce overfitting risks, we further introduce a progressive semantic injection strategy, organizing the model training into three structured stages. Extensive experiments conducted on 17 datasets, covering three major AVFA tasks, demonstrate that AVF-MAE++ achieves consistent state-of-the-art performance across multiple benchmarks. Comprehensive ablation studies further highlight the importance of each proposed component and provide deeper insights into the design choices driving these improvements. Our code and models have been publicly released at Github.