Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

作者: Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil Park

分类: cs.MM, cs.AI, cs.SD

发布日期: 2026-03-12

备注: 8 pages, 3 figures, 2 pages

💡 一句话要点

提出SAGE框架，通过阶段自适应的可靠性建模提升连续情感识别精度。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 连续情感识别 多模态融合 可靠性建模 阶段自适应 情感计算

📋 核心要点

现有连续情感识别方法忽略了模态可靠性随交互阶段变化的特性，导致性能受限。
SAGE框架通过显式估计和校准模态置信度，动态调整音频和视觉表征的权重，实现更鲁棒的情感估计。
在Aff-Wild2基准测试中，SAGE显著提升了情感识别的CCC分数，验证了其有效性。

📝 摘要（中文）

在真实环境中，由于模态可靠性的不一致以及视听信号中交互依赖的可变性，连续效价-唤醒度估计极具挑战。现有方法主要关注时间动态建模，往往忽略了模态可靠性在不同交互阶段可能发生显著变化的事实。为了解决这个问题，我们提出了SAGE，一个阶段自适应的可靠性建模框架，它显式地估计和校准多模态融合期间的模态置信度。SAGE引入了一种可靠性感知融合机制，根据音频和视觉表征的阶段依赖信息量动态地重新平衡它们，防止不可靠的信号主导预测过程。通过将可靠性估计与特征表征分离，该框架能够在跨模态噪声、遮挡和变化的交互条件下实现更稳定的情感估计。在Aff-Wild2基准上的大量实验表明，与现有的多模态融合方法相比，SAGE始终提高了concordance correlation coefficient (CCC) 分数，突出了可靠性驱动建模在连续情感预测中的有效性。

🔬 方法详解

问题定义：连续情感识别旨在预测视频中人物情感的连续变化，但真实场景下，音频和视觉信号的质量会受到噪声、遮挡等因素的影响，导致模态可靠性不稳定。现有方法通常侧重于建模时间动态，忽略了模态可靠性随交互阶段变化的特性，容易受到不可靠模态的干扰。

核心思路：SAGE的核心在于显式地建模和利用模态的可靠性信息。它认为，不同交互阶段，音频和视觉信号的可靠性不同，应该根据其可靠性动态调整它们在融合中的权重。通过学习一个阶段自适应的可靠性模型，SAGE能够抑制不可靠模态的干扰，提升情感识别的鲁棒性。

技术框架：SAGE框架主要包含三个模块：特征提取模块、可靠性估计模块和融合模块。首先，使用预训练的模型提取音频和视觉特征。然后，可靠性估计模块根据当前交互阶段的信息，估计每个模态的可靠性得分。最后，融合模块根据可靠性得分，动态调整音频和视觉特征的权重，进行融合并预测情感。

关键创新：SAGE的关键创新在于提出了阶段自适应的可靠性建模方法。与以往方法不同，SAGE不是简单地将所有模态同等对待，而是根据其可靠性动态调整其权重。此外，SAGE将可靠性估计与特征表示分离，使得模型能够更灵活地适应不同的场景和模态。

关键设计：SAGE使用一个小型神经网络来估计模态的可靠性得分。该网络以音频和视觉特征作为输入，输出每个模态的可靠性得分。在融合模块中，SAGE使用加权平均的方式融合音频和视觉特征，权重由可靠性得分决定。损失函数包括情感预测损失和可靠性估计损失，通过联合优化，使得模型能够更准确地估计模态的可靠性。

🖼️ 关键图片

📊 实验亮点

SAGE在Aff-Wild2基准测试中取得了显著的性能提升。与现有的多模态融合方法相比，SAGE在验证集上取得了更高的CCC分数，表明其在连续情感识别任务中的有效性。具体而言，SAGE在valence和arousal两个维度上均取得了提升，证明了其在不同情感维度上的泛化能力。

🎯 应用场景

SAGE框架可应用于人机交互、情感计算、智能监控等领域。例如，在智能客服中，可以利用SAGE识别用户的情绪变化，从而提供更个性化的服务。在驾驶辅助系统中，可以利用SAGE监测驾驶员的情绪状态，及时发出预警，提高驾驶安全性。此外，该技术还可用于心理健康评估和治疗等领域。

📄 摘要（原文）

Continuous valence-arousal estimation in real-world environments is challenging due to inconsistent modality reliability and interaction-dependent variability in audio-visual signals. Existing approaches primarily focus on modeling temporal dynamics, often overlooking the fact that modality reliability can vary substantially across interaction stages. To address this issue, we propose SAGE, a Stage-Adaptive reliability modeling framework that explicitly estimates and calibrates modality-wise confidence during multimodal integration. SAGE introduces a reliability-aware fusion mechanism that dynamically rebalances audio and visual representations according to their stage-dependent informativeness, preventing unreliable signals from dominating the prediction process. By separating reliability estimation from feature representation, the proposed framework enables more stable emotion estimation under cross-modal noise, occlusion, and varying interaction conditions. Extensive experiments on the Aff-Wild2 benchmark demonstrate that SAGE consistently improves concordance correlation coefficient scores compared with existing multimodal fusion approaches, highlighting the effectiveness of reliability-driven modeling for continuous affect prediction.

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理