QA-MoE: Towards a Continuous Reliability Spectrum with Quality-Aware Mixture of Experts for Robust Multimodal Sentiment Analysis

📄 arXiv: 2604.05704v1 📥 PDF

作者: Yitong Zhu, Yuxuan Jiang, Guanxuan Jiang, Bojing Hou, Peng Yuan Zhou, Ge Lin Kan, Yuyang Wang

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出QA-MoE,通过质量感知的专家混合模型实现鲁棒的多模态情感分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感分析 专家混合模型 模态可靠性 自监督学习 鲁棒性 偶然不确定性 连续可靠性谱

📋 核心要点

  1. 现有MSA方法难以适应真实场景中模态质量连续变化和缺失的情况,通常将其视为离散问题。
  2. QA-MoE通过自监督学习量化模态可靠性,并利用专家混合模型抑制不可靠信号的误差传播。
  3. 实验表明,QA-MoE在多种模态退化场景下表现出色,并具备良好的泛化能力,实现“一模型通用”。

📝 摘要(中文)

多模态情感分析(MSA)旨在从文本、声音和视觉信号中推断人类情感。然而,在现实场景中,多模态输入经常受到动态噪声或模态缺失的影响。现有方法通常将这些缺陷视为离散情况或假设固定的损坏率,这限制了它们对连续变化的可靠性条件的适应性。为了解决这个问题,我们首先引入了一个连续可靠性谱,将缺失和质量退化统一到一个框架中。在此基础上,我们提出了QA-MoE,一个质量感知的专家混合框架,通过自监督的偶然不确定性来量化模态可靠性。这种机制显式地引导专家路由,使模型能够抑制来自不可靠信号的误差传播,同时保留与任务相关的信息。大量实验表明,QA-MoE在各种退化场景中实现了有竞争力的或最先进的性能,并在实践中表现出有希望的“一模型通用”的特性。

🔬 方法详解

问题定义:多模态情感分析任务中,现有方法难以有效处理真实场景下模态数据质量参差不齐,甚至出现缺失的情况。现有方法通常将模态缺失和质量退化视为离散情况,或者假设固定的损坏比例,无法适应连续变化的可靠性条件,导致模型鲁棒性不足。

核心思路:论文的核心思路是引入“连续可靠性谱”的概念,将模态缺失和质量退化统一到一个框架下进行建模。通过自监督学习的方式,量化每个模态的可靠性,并利用这些可靠性信息指导专家混合模型(MoE)的路由,从而使模型能够更加关注可靠的模态,抑制不可靠模态的干扰。

技术框架:QA-MoE框架主要包含以下几个模块:1) 特征提取模块:提取文本、音频和视觉模态的特征。2) 可靠性估计模块:通过自监督学习,估计每个模态的可靠性,输出一个表示偶然不确定性的值。3) 专家混合模块:包含多个专家网络,每个专家网络专注于处理特定类型的模态组合或质量水平。4) 路由模块:根据可靠性估计模块的输出,动态地将输入路由到不同的专家网络。5) 情感预测模块:将专家网络的输出进行融合,最终预测情感。

关键创新:QA-MoE的关键创新在于:1) 提出了“连续可靠性谱”的概念,统一建模模态缺失和质量退化。2) 利用自监督学习量化模态可靠性,并将其用于指导专家混合模型的路由。3) 提出了质量感知的专家混合模型,能够根据模态的可靠性动态地调整模型的行为,从而提高模型的鲁棒性。与现有方法相比,QA-MoE能够更好地适应真实场景下模态数据质量的变化。

关键设计:可靠性估计模块使用自监督学习,通过预测模态自身的重构误差来估计偶然不确定性。专家混合模块中的每个专家网络可以是任何类型的神经网络,例如Transformer或LSTM。路由模块使用softmax函数将可靠性估计值转换为路由权重。损失函数包括情感预测的交叉熵损失和可靠性估计的重构损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,QA-MoE在各种模态退化场景下均取得了优异的性能,显著优于现有方法。例如,在某些场景下,QA-MoE的性能提升超过5%。此外,QA-MoE还表现出良好的泛化能力,能够在不同的数据集上取得一致的性能提升,实现了“一模型通用”的特性。

🎯 应用场景

QA-MoE可应用于各种需要处理多模态数据的场景,例如情感分析、人机交互、视频理解等。该方法能够有效应对真实场景中模态数据质量不佳或缺失的情况,提高系统的鲁棒性和可靠性。未来,该方法可以进一步扩展到其他多模态任务,例如多模态机器翻译、多模态对话系统等。

📄 摘要(原文)

Multimodal Sentiment Analysis (MSA) aims to infer human sentiment from textual, acoustic, and visual signals. In real-world scenarios, however, multimodal inputs are often compromised by dynamic noise or modality missingness. Existing methods typically treat these imperfections as discrete cases or assume fixed corruption ratios, which limits their adaptability to continuously varying reliability conditions. To address this, we first introduce a Continuous Reliability Spectrum to unify missingness and quality degradation into a single framework. Building on this, we propose QA-MoE, a Quality-Aware Mixture-of-Experts framework that quantifies modality reliability via self-supervised aleatoric uncertainty. This mechanism explicitly guides expert routing, enabling the model to suppress error propagation from unreliable signals while preserving task-relevant information. Extensive experiments indicate that QA-MoE achieves competitive or state-of-the-art performance across diverse degradation scenarios and exhibits a promising One-Checkpoint-for-All property in practice.