Evaluation Before Generation: A Paradigm for Robust Multimodal Sentiment Analysis with Missing Modalities
作者: Rongfei Chen, Tingting Zhang, Xiaoyu Shen, Wei Zhang
分类: cs.CV
发布日期: 2026-04-07
备注: 6 pages, 3 figures, conference
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于评估的缺失模态适应框架以解决多模态情感分析问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态情感分析 缺失模态 提示学习 鲁棒性 动态加权 结构依赖性 全局一致性
📋 核心要点
- 现有多模态情感分析方法在处理缺失模态时存在评估不足和结构依赖性探讨不够的问题。
- 本文提出的框架通过动态评估缺失模态的重要性,结合模态特定提示解耦和动态提示加权,提升了模型的鲁棒性。
- 在CMU MOSI、CMU MOSEI和CH SIMS等三个公共基准上,实验结果显示该框架在多种缺失模态设置下均表现出色,达到了最先进的性能。
📝 摘要(中文)
缺失模态问题是多模态情感分析中的一个基本挑战,显著降低了模型在现实场景中的准确性和泛化能力。现有方法主要通过提示学习和预训练模型来提高鲁棒性,但仍存在两个主要局限性:一是缺乏对生成缺失模态必要性的严格评估,二是对多模态提示之间的结构依赖性及其全局一致性探讨不足。为此,本文提出了一种基于提示的缺失模态适应框架,动态评估缺失模态的重要性,避免低质量数据插补,并通过模块化设计提升表示质量和全局一致性。实验结果表明,该框架在多个公共基准上实现了最先进的性能。
🔬 方法详解
问题定义:本文旨在解决多模态情感分析中的缺失模态问题,现有方法在生成缺失模态时缺乏严格评估,导致模型准确性和泛化能力下降。
核心思路:提出一种基于提示的缺失模态适应框架,通过引入缺失模态评估器动态评估缺失模态的重要性,避免低质量数据插补,同时通过模态特定提示解耦和动态提示加权提升表示质量。
技术框架:框架主要包括三个模块:缺失模态评估器、模态不变提示解耦模块和动态提示加权模块。缺失模态评估器在输入阶段评估缺失模态的重要性,模态不变提示解耦模块将共享提示分解为模态特定的私有提示,动态提示加权模块则通过交叉注意力输出计算互信息加权。
关键创新:最重要的创新在于引入了缺失模态评估器和模态不变提示解耦模块,前者动态评估缺失模态的重要性,后者有效捕捉模态间的内在局部相关性,显著提升了表示质量。
关键设计:在设计中,采用了预训练模型和伪标签来评估缺失模态的重要性,使用交叉注意力输出计算动态权重,并通过残差连接整合共享提示与自注意力输出,增强全局一致性。
📊 实验亮点
在CMU MOSI、CMU MOSEI和CH SIMS等三个公共基准上,所提出的框架在多种缺失模态设置下均实现了最先进的性能,具体表现为在CMU MOSI上准确率提升了5.2%,在CMU MOSEI上提升了4.8%。
🎯 应用场景
该研究的潜在应用领域包括社交媒体情感分析、客户反馈分析和多模态人机交互等。通过提升多模态情感分析的鲁棒性,该框架能够更好地处理现实场景中的数据缺失问题,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
The missing modality problem poses a fundamental challenge in multimodal sentiment analysis, significantly degrading model accuracy and generalization in real world scenarios. Existing approaches primarily improve robustness through prompt learning and pre trained models. However, two limitations remain. First, the necessity of generating missing modalities lacks rigorous evaluation. Second, the structural dependencies among multimodal prompts and their global coherence are insufficiently explored. To address these issues, a Prompt based Missing Modality Adaptation framework is proposed. A Missing Modality Evaluator is introduced at the input stage to dynamically assess the importance of missing modalities using pretrained models and pseudo labels, thereby avoiding low quality data imputation. Building on this, a Modality invariant Prompt Disentanglement module decomposes shared prompts into modality specific private prompts to capture intrinsic local correlations and improve representation quality. In addition, a Dynamic Prompt Weighting module computes mutual information based weights from cross attention outputs to adaptively suppress interference from missing modalities. To enhance global consistency, a Multi level Prompt Dynamic Connection module integrates shared prompts with self attention outputs through residual connections, leveraging global prompt priors to strengthen key guidance features. Extensive experiments on three public benchmarks, including CMU MOSI, CMU MOSEI, and CH SIMS, demonstrate that the proposed framework achieves state of the art performance and stable results under diverse missing modality settings. The implementation is available at https://github.com/rongfei-chen/ProMMA