Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

📄 arXiv: 2603.08034v1 📥 PDF

作者: Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu

分类: cs.CV, cs.AI

发布日期: 2026-03-09


💡 一句话要点

提出基于安全交叉注意力和模态Dropout的鲁棒多模态框架,解决ABAW表情识别挑战。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感识别 多模态融合 Transformer 交叉注意力 模态Dropout 长尾分布 焦点损失

📋 核心要点

  1. 真实场景情感识别面临遮挡、模态缺失和类别不平衡等挑战,现有方法难以有效应对。
  2. 论文提出双分支Transformer,利用安全交叉注意力和模态Dropout,实现视觉缺失时依赖音频预测。
  3. 实验结果表明,该框架能有效处理缺失模态和时空依赖,在Aff-Wild2验证集上取得显著效果。

📝 摘要(中文)

本文提出了一种多模态框架,旨在解决真实环境中由于部分遮挡、模态缺失和严重类别不平衡而导致的情感识别问题,特别是针对野外情感行为分析(ABAW)表情识别挑战。该方法采用双分支Transformer架构,具有安全交叉注意机制和模态dropout策略,允许网络在视觉线索缺失时依赖于基于音频的预测。为了缓解Aff-Wild2数据集的长尾分布,应用了焦点损失优化,并结合滑动窗口软投票策略来捕获动态情感转换并减少帧级分类抖动。实验表明,该框架有效地处理了缺失模态和复杂的时空依赖关系,在Aff-Wild2验证集上实现了60.79%的准确率和0.5029的F1分数。

🔬 方法详解

问题定义:论文旨在解决真实场景下情感识别任务中,由于遮挡、模态缺失(例如,只有音频没有视频)以及类别不平衡等问题导致的性能下降。现有方法在处理这些问题时鲁棒性不足,尤其是在Aff-Wild2这种具有长尾分布的数据集上,表现不佳。

核心思路:论文的核心思路是设计一个能够动态融合视觉和音频信息的多模态框架,并且该框架能够有效地处理模态缺失的情况。通过引入安全交叉注意机制,使得模型在视觉信息不可靠时,能够更多地依赖音频信息。同时,模态dropout策略进一步增强了模型的鲁棒性。

技术框架:整体框架是一个双分支Transformer架构,分别处理视觉和音频信息。两个分支的输出通过一个安全交叉注意力模块进行融合。该模块允许音频分支在视觉信息缺失或不可靠时,对最终预测产生更大的影响。此外,还使用了滑动窗口软投票策略,以平滑帧级别的预测结果,减少抖动。

关键创新:最重要的技术创新点在于安全交叉注意力机制和模态dropout策略的结合使用。安全交叉注意力机制能够动态地调整视觉和音频信息的权重,使得模型在视觉信息缺失时,能够更多地依赖音频信息。模态dropout策略则进一步增强了模型的鲁棒性,防止模型过度依赖单一模态。

关键设计:论文使用了焦点损失函数来缓解类别不平衡问题。滑动窗口软投票策略通过对相邻帧的预测结果进行加权平均,来平滑帧级别的预测结果。具体来说,窗口大小和权重分配是关键参数,需要根据数据集的特性进行调整。Transformer的层数、隐藏层大小等参数也需要根据计算资源和数据集大小进行调整。

🖼️ 关键图片

fig_0

📊 实验亮点

该论文提出的方法在Aff-Wild2验证集上取得了显著的性能提升,准确率达到60.79%,F1分数达到0.5029。实验结果表明,该框架能够有效地处理缺失模态和复杂的时空依赖关系,优于现有的基线方法。安全交叉注意力和模态dropout策略的结合使用,是性能提升的关键因素。

🎯 应用场景

该研究成果可应用于人机交互、智能监控、在线教育等领域。例如,在人机交互中,系统可以根据用户的情绪状态做出相应的反馈;在智能监控中,可以识别异常情绪行为,及时预警;在在线教育中,可以分析学生的情绪状态,调整教学策略。未来,该技术有望在心理健康评估、情感计算等领域发挥更大的作用。

📄 摘要(原文)

Emotion recognition in real-world environments is hindered by partial occlusions, missing modalities, and severe class imbalance. To address these issues, particularly for the Affective Behavior Analysis in-the-wild (ABAW) Expression challenge, we propose a multimodal framework that dynamically fuses visual and audio representations. Our approach uses a dual-branch Transformer architecture featuring a safe cross-attention mechanism and a modality dropout strategy. This design allows the network to rely on audio-based predictions when visual cues are absent. To mitigate the long-tail distribution of the Aff-Wild2 dataset, we apply focal loss optimization, combined with a sliding-window soft voting strategy to capture dynamic emotional transitions and reduce frame-level classification jitter. Experiments demonstrate that our framework effectively handles missing modalities and complex spatiotemporal dependencies, achieving an accuracy of 60.79% and an F1-score of 0.5029 on the Aff-Wild2 validation set.