Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation
作者: Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil Park
分类: cs.MM, cs.AI, cs.SD
发布日期: 2026-03-12
备注: 8 pages, 3 figures, 2 pages
💡 一句话要点
提出SAGE框架,通过阶段自适应的可靠性建模提升连续情感识别精度。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 连续情感识别 多模态融合 可靠性建模 阶段自适应 情感计算
📋 核心要点
- 现有连续情感识别方法忽略了模态可靠性随交互阶段变化的特性,导致性能受限。
- SAGE框架通过显式估计和校准模态置信度,动态调整音频和视觉表征的权重,实现更鲁棒的情感估计。
- 在Aff-Wild2基准测试中,SAGE显著提升了情感识别的CCC分数,验证了其有效性。
📝 摘要(中文)
在真实环境中,由于模态可靠性的不一致以及视听信号中交互依赖的可变性,连续效价-唤醒度估计极具挑战。现有方法主要关注时间动态建模,往往忽略了模态可靠性在不同交互阶段可能发生显著变化的事实。为了解决这个问题,我们提出了SAGE,一个阶段自适应的可靠性建模框架,它显式地估计和校准多模态融合期间的模态置信度。SAGE引入了一种可靠性感知融合机制,根据音频和视觉表征的阶段依赖信息量动态地重新平衡它们,防止不可靠的信号主导预测过程。通过将可靠性估计与特征表征分离,该框架能够在跨模态噪声、遮挡和变化的交互条件下实现更稳定的情感估计。在Aff-Wild2基准上的大量实验表明,与现有的多模态融合方法相比,SAGE始终提高了concordance correlation coefficient (CCC) 分数,突出了可靠性驱动建模在连续情感预测中的有效性。
🔬 方法详解
问题定义:连续情感识别旨在预测视频中人物情感的连续变化,但真实场景下,音频和视觉信号的质量会受到噪声、遮挡等因素的影响,导致模态可靠性不稳定。现有方法通常侧重于建模时间动态,忽略了模态可靠性随交互阶段变化的特性,容易受到不可靠模态的干扰。
核心思路:SAGE的核心在于显式地建模和利用模态的可靠性信息。它认为,不同交互阶段,音频和视觉信号的可靠性不同,应该根据其可靠性动态调整它们在融合中的权重。通过学习一个阶段自适应的可靠性模型,SAGE能够抑制不可靠模态的干扰,提升情感识别的鲁棒性。
技术框架:SAGE框架主要包含三个模块:特征提取模块、可靠性估计模块和融合模块。首先,使用预训练的模型提取音频和视觉特征。然后,可靠性估计模块根据当前交互阶段的信息,估计每个模态的可靠性得分。最后,融合模块根据可靠性得分,动态调整音频和视觉特征的权重,进行融合并预测情感。
关键创新:SAGE的关键创新在于提出了阶段自适应的可靠性建模方法。与以往方法不同,SAGE不是简单地将所有模态同等对待,而是根据其可靠性动态调整其权重。此外,SAGE将可靠性估计与特征表示分离,使得模型能够更灵活地适应不同的场景和模态。
关键设计:SAGE使用一个小型神经网络来估计模态的可靠性得分。该网络以音频和视觉特征作为输入,输出每个模态的可靠性得分。在融合模块中,SAGE使用加权平均的方式融合音频和视觉特征,权重由可靠性得分决定。损失函数包括情感预测损失和可靠性估计损失,通过联合优化,使得模型能够更准确地估计模态的可靠性。
🖼️ 关键图片
📊 实验亮点
SAGE在Aff-Wild2基准测试中取得了显著的性能提升。与现有的多模态融合方法相比,SAGE在验证集上取得了更高的CCC分数,表明其在连续情感识别任务中的有效性。具体而言,SAGE在valence和arousal两个维度上均取得了提升,证明了其在不同情感维度上的泛化能力。
🎯 应用场景
SAGE框架可应用于人机交互、情感计算、智能监控等领域。例如,在智能客服中,可以利用SAGE识别用户的情绪变化,从而提供更个性化的服务。在驾驶辅助系统中,可以利用SAGE监测驾驶员的情绪状态,及时发出预警,提高驾驶安全性。此外,该技术还可用于心理健康评估和治疗等领域。
📄 摘要(原文)
Continuous valence-arousal estimation in real-world environments is challenging due to inconsistent modality reliability and interaction-dependent variability in audio-visual signals. Existing approaches primarily focus on modeling temporal dynamics, often overlooking the fact that modality reliability can vary substantially across interaction stages. To address this issue, we propose SAGE, a Stage-Adaptive reliability modeling framework that explicitly estimates and calibrates modality-wise confidence during multimodal integration. SAGE introduces a reliability-aware fusion mechanism that dynamically rebalances audio and visual representations according to their stage-dependent informativeness, preventing unreliable signals from dominating the prediction process. By separating reliability estimation from feature representation, the proposed framework enables more stable emotion estimation under cross-modal noise, occlusion, and varying interaction conditions. Extensive experiments on the Aff-Wild2 benchmark demonstrate that SAGE consistently improves concordance correlation coefficient scores compared with existing multimodal fusion approaches, highlighting the effectiveness of reliability-driven modeling for continuous affect prediction.