MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

📄 arXiv: 2603.09874v1 📥 PDF

作者: Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen

分类: cs.CV

发布日期: 2026-03-10


💡 一句话要点

MissBench:针对模态缺失不平衡的多模态情感分析基准测试框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感分析 模态缺失 不平衡学习 基准测试 公平性 鲁棒性 诊断指标

📋 核心要点

  1. 现有情感分析方法假设模态数据完整,但在实际应用中,模态数据缺失且不平衡,导致模型性能下降。
  2. MissBench提出一个基准测试框架,通过标准化共享和不平衡缺失率协议,来评估模型在真实场景下的鲁棒性。
  3. 该框架定义了模态公平指数(MEI)和模态学习指数(MLI),用于诊断模型在不同模态下的贡献和优化平衡。

📝 摘要(中文)

多模态情感计算是情感分析和情绪识别等关键任务的基础。然而,标准评估通常假设文本、声音和视觉模态同等可用。在实际应用中,某些模态系统性地更加脆弱或昂贵,导致不平衡的缺失率和训练偏差,而仅靠任务级指标无法揭示这些问题。我们引入了MissBench,这是一个针对多模态情感任务的基准和框架,它在四个广泛使用的情感和情绪数据集上标准化了共享和不平衡缺失率协议。MissBench还定义了两个诊断指标:模态公平指数(MEI)衡量不同模态在不同缺失模态配置中的贡献公平性。模态学习指数(MLI)通过比较训练期间模态特定梯度范数(在模态相关模块中聚合)来量化优化不平衡。在代表性方法系列上的实验表明,在共享缺失率下看起来稳健的模型在不平衡条件下仍然可能表现出显著的模态不公平和优化不平衡。这些发现将MissBench以及MEI和MLI定位为在实际不完整模态设置中对多模态情感模型进行压力测试和分析的实用工具。为了可重复性,我们发布了我们的代码。

🔬 方法详解

问题定义:现有方法在多模态情感分析中,通常假设所有模态数据都是完整且平衡的。然而,在实际应用中,由于各种原因(例如传感器故障、数据采集成本等),某些模态的数据可能缺失,并且不同模态的缺失率可能存在显著差异。这种不平衡的模态缺失会对模型的性能产生负面影响,并且现有的评估指标难以充分揭示这种影响。因此,需要一种能够评估模型在不平衡模态缺失情况下的鲁棒性和公平性的方法。

核心思路:MissBench的核心思路是创建一个标准化的基准测试框架,该框架能够模拟真实世界中不平衡的模态缺失情况,并提供相应的评估指标来诊断模型在这些情况下的表现。通过在不同的缺失率配置下评估模型,可以更好地了解模型对不同模态的依赖程度以及在模态缺失时的性能下降情况。此外,通过引入模态公平指数(MEI)和模态学习指数(MLI),可以更深入地分析模型在不同模态之间的贡献和优化平衡情况。

技术框架:MissBench框架主要包含以下几个部分:1) 数据集:选择了四个广泛使用的情感和情绪数据集,涵盖不同的模态组合(文本、音频、视频)。2) 缺失率协议:定义了共享缺失率和不平衡缺失率两种协议,用于模拟不同的模态缺失情况。3) 评估指标:除了传统的任务级指标外,还引入了模态公平指数(MEI)和模态学习指数(MLI)来诊断模型的模态贡献和优化平衡。4) 基线模型:选择了代表性的多模态情感分析模型作为基线,并在MissBench框架下进行评估。

关键创新:MissBench的关键创新在于:1) 提出了一个标准化的基准测试框架,用于评估多模态情感分析模型在不平衡模态缺失情况下的鲁棒性和公平性。2) 定义了模态公平指数(MEI)和模态学习指数(MLI)这两个新的诊断指标,用于更深入地分析模型的模态贡献和优化平衡情况。3) 通过实验证明,即使在共享缺失率下表现良好的模型,在不平衡缺失率下也可能表现出显著的模态不公平和优化不平衡。

关键设计:模态公平指数(MEI)的计算方法是,首先计算每个模态在不同缺失配置下的性能贡献,然后对这些贡献进行归一化,最后计算不同模态之间的贡献差异。模态学习指数(MLI)的计算方法是,首先计算每个模态相关模块的梯度范数,然后对这些梯度范数进行聚合,最后比较不同模态之间的梯度范数差异。这些指标的设计旨在量化不同模态在模型中的重要性和优化程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在共享缺失率下表现良好的模型,在不平衡缺失率下可能表现出显著的模态不公平和优化不平衡。例如,某些模型在文本模态缺失时性能下降明显,而另一些模型则在音频模态缺失时表现不佳。MEI和MLI指标能够有效量化这些差异,为模型改进提供指导。

🎯 应用场景

MissBench可应用于开发更鲁棒和公平的多模态情感分析系统,例如在语音助手、在线客服、社交媒体分析等领域。该基准测试有助于识别和解决模型在模态缺失情况下的性能瓶颈,并促进对不同模态贡献的深入理解,从而提升用户体验和决策质量。

📄 摘要(原文)

Multimodal affective computing underpins key tasks such as sentiment analysis and emotion recognition. Standard evaluations, however, often assume that textual, acoustic, and visual modalities are equally available. In real applications, some modalities are systematically more fragile or expensive, creating imbalanced missing rates and training biases that task-level metrics alone do not reveal. We introduce MissBench, a benchmark and framework for multimodal affective tasks that standardizes both shared and imbalanced missing-rate protocols on four widely used sentiment and emotion datasets. MissBench also defines two diagnostic metrics. The Modality Equity Index (MEI) measures how fairly different modalities contribute across missing-modality configurations. The Modality Learning Index (MLI) quantifies optimization imbalance by comparing modality-specific gradient norms during training, aggregated across modality-related modules. Experiments on representative method families show that models that appear robust under shared missing rates can still exhibit marked modality inequity and optimization imbalance under imbalanced conditions. These findings position MissBench, together with MEI and MLI, as practical tools for stress-testing and analyzing multimodal affective models in realistic incomplete-modality settings.For reproducibility, we release our code at: https://anonymous.4open.science/r/MissBench-4098/