UAU-Net: Uncertainty-aware Representation Learning and Evidential Classification for Facial Action Unit Detection

📄 arXiv: 2604.21227v1 📥 PDF

作者: Yuze Li, Zhilei Liu

分类: cs.CV, cs.MM

发布日期: 2026-04-23

备注: Accepted by ICMR 2026


💡 一句话要点

提出UAU-Net,通过不确定性建模提升面部动作单元检测的鲁棒性和可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 面部动作单元检测 不确定性建模 条件VAE 证据神经网络 标签不平衡 情感计算 人机交互

📋 核心要点

  1. 现有AU检测方法忽略了视觉噪声、外观变化和AU间关系带来的不确定性,导致鲁棒性下降。
  2. UAU-Net通过条件VAE学习概率AU表示,并使用非对称Beta证据神经网络进行不确定性建模。
  3. 在BP4D和DISFA数据集上的实验表明,UAU-Net显著提升了AU检测的性能和可靠性。

📝 摘要(中文)

面部动作单元(AU)检测仍然具有挑战性,因为它涉及在表示和决策阶段产生的异构的、AU特定的不确定性。现有方法改进了判别特征学习,但通常将AU表示视为确定性的,忽略了由视觉噪声、受试者依赖的外观变化和模糊的AU间关系引起的不确定性,这些都会大大降低鲁棒性。同时,传统的点估计分类器通常提供校准不良的置信度,产生过度自信的预测,尤其是在AU数据集典型的严重标签不平衡情况下。我们提出了UAU-Net,一个不确定性感知AU检测框架,它显式地对两个阶段的不确定性进行建模。在表示阶段,我们引入了CV-AFE,一个基于条件VAE (CVAE)的AU特征提取模块,通过联合估计跨多个时空尺度的特征均值和方差来学习概率AU表示;条件AU标签进一步使CV-AFE能够捕获与AU间依赖关系相关的不确定性。在决策阶段,我们设计了AB-ENN,一个用于多标签AU检测的非对称Beta证据神经网络,它用Beta分布参数化预测不确定性,并通过针对高度不平衡的二元标签定制的非对称损失来缓解过度自信。在BP4D和DISFA上的大量实验表明,UAU-Net实现了强大的AU检测性能,进一步的分析表明,在表示学习和证据预测中建模不确定性可以提高鲁棒性和可靠性。

🔬 方法详解

问题定义:面部动作单元(AU)检测旨在识别面部特定肌肉运动,但现有方法在处理由视觉噪声、个体差异和AU间复杂关系引起的不确定性方面存在不足。传统方法将AU表示视为确定性的,忽略了这些不确定性,导致模型鲁棒性差,泛化能力弱。此外,传统分类器在处理AU数据集固有的标签不平衡问题时,容易产生过度自信的预测。

核心思路:UAU-Net的核心思路是在AU检测的表示学习和决策两个阶段显式地建模不确定性。通过学习AU特征的概率分布,模型能够更好地处理输入数据中的噪声和变化。同时,利用证据推理框架,模型可以更准确地估计预测结果的置信度,从而避免过度自信的错误。

技术框架:UAU-Net包含两个主要模块:CV-AFE (Conditional VAE-based AU Feature Extraction) 和 AB-ENN (Asymmetric Beta Evidential Neural Network)。CV-AFE负责学习AU特征的概率表示,AB-ENN则基于这些概率表示进行AU检测,并估计预测结果的不确定性。整个框架通过联合优化这两个模块,实现不确定性感知的AU检测。

关键创新:UAU-Net的关键创新在于同时在表示学习和决策阶段建模不确定性。CV-AFE通过条件VAE学习AU特征的概率分布,能够捕获AU间依赖关系带来的不确定性。AB-ENN利用非对称Beta分布参数化预测不确定性,并设计了针对标签不平衡问题的非对称损失函数,有效缓解了过度自信的预测。

关键设计:CV-AFE使用条件VAE架构,以AU标签为条件,学习AU特征的均值和方差。AB-ENN使用证据神经网络,将预测结果建模为Beta分布,并通过Dirichlet分布学习证据参数。非对称损失函数的设计考虑了正负样本的不平衡,对错误预测的负样本施加更大的惩罚。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

UAU-Net在BP4D和DISFA数据集上取得了显著的性能提升。在BP4D数据集上,UAU-Net的平均F1-score比现有最佳方法提高了约3%。在DISFA数据集上,UAU-Net也取得了类似的性能提升,证明了其在不同数据集上的泛化能力。消融实验表明,CV-AFE和AB-ENN两个模块都对性能提升做出了贡献。

🎯 应用场景

UAU-Net在人机交互、情感计算、心理健康评估等领域具有广泛的应用前景。通过准确检测面部动作单元,可以帮助机器理解人类的情绪状态和意图,从而实现更自然、更智能的人机交互。此外,该技术还可以用于心理疾病的早期诊断和治疗,例如抑郁症和自闭症的辅助诊断。

📄 摘要(原文)

Facial action unit (AU) detection remains challenging because it involves heterogeneous, AU-specific uncertainties arising at both the representation and decision stages. Recent methods have improved discriminative feature learning, but they often treat the AU representations as deterministic, overlooking uncertainty caused by visual noise, subject-dependent appearance variations, and ambiguous inter-AU relationships, all of which can substantially degrade robustness. Meanwhile, conventional point-estimation classifiers often provide poorly calibrated confidence, producing overconfident predictions, especially under the severe label imbalance typical of AU datasets. We propose UAU-Net, an Uncertainty-aware AU detection framework that explicitly models uncertainty at both stages. At the representation stage, we introduce CV-AFE, a conditional VAE (CVAE)-based AU feature extraction module that learns probabilistic AU representations by jointly estimating feature means and variances across multiple spatio-temporal scales; conditioning on AU labels further enables CV-AFE to capture uncertainty associated with inter-AU dependencies. At the decision stage, we design AB-ENN, an Asymmetric Beta Evidential Neural Network for multi-label AU detection, which parameterizes predictive uncertainty with Beta distributions and mitigates overconfidence via an asymmetric loss tailored to highly imbalanced binary labels. Extensive experiments on BP4D and DISFA show that UAU-Net achieves strong AU detection performance, and further analyses indicate that modeling uncertainty in both representation learning and evidential prediction improves robustness and reliability.