To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition
作者: Yangchen Yu, Qian Chen, Jia Li, Zhenzhen Hu, Jinpeng Hu, Lizi Liao, Erik Cambria, Richang Hong
分类: cs.MM, cs.HC, cs.LG
发布日期: 2026-05-06
💡 一句话要点
提出双路径冲突解决框架DCR,用于多模态情感识别中的模态冲突问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态情感识别 模态冲突解决 双路径学习 反向蒸馏 上下文bandit
📋 核心要点
- 现有MER方法在模态冲突时表现不佳,强制融合会放大错误,忽略了冲突的可解决性。
- DCR框架通过双路径学习,自适应地决定何时融合模态,何时丢弃模态,从而解决模态冲突。
- 实验表明,DCR在多个MER基准测试中优于现有方法,证明了其在冲突感知情感识别方面的有效性。
📝 摘要(中文)
多模态情感识别(MER)受益于文本、音频和视觉的结合,但当模态之间存在冲突时,标准融合方法往往失效。冲突的可解决性不同:良性冲突源于缺失、微弱或模糊的线索,可以通过跨模态校准来缓解;而严重冲突则源于本质上矛盾(如讽刺)或误导性的信号,强制融合可能会放大错误。为此,我们提出了双路径冲突解决(DCR)框架,该框架学习何时融合以及何时丢弃模态。路径I(情感融合蒸馏器AFD)使用时间加权类证据,执行从音频/视觉教师到文本学生的反向蒸馏,从而增强表示层面的校准,并在对齐有利时改善融合。路径II(情感辨别代理ADA)将MER构建为上下文bandit,基于双视图状态和校准感知奖励,在融合和单模态预测之间进行选择,从而在不可调和的冲突下实现决策层面的仲裁,而无需每个模态的可靠性标签。通过考虑完整的多模态上下文并将软校准与硬仲裁相结合,DCR协调可以对齐的冲突,并在融合有害时绕过误导性模态。在涵盖对话级别和片段级别的五个MER基准测试中,DCR始终优于竞争基线或达到极具竞争力的结果。进一步的消融实验、特定于冲突的子集评估和模态选择分析验证了AFD和ADA是互补的,并共同提高了鲁棒的冲突感知情感识别。
🔬 方法详解
问题定义:多模态情感识别旨在结合文本、音频和视觉信息来识别情感。然而,不同模态之间可能存在冲突,例如文本表达积极情感,但语音语调却表达消极情感。现有方法通常采用简单的融合策略,无法有效处理这些模态冲突,导致识别准确率下降。尤其当冲突是由于讽刺或误导性信息引起时,强制融合反而会放大错误。
核心思路:DCR的核心思想是区分可解决的良性冲突和不可解决的严重冲突,并采取不同的处理策略。对于良性冲突,通过跨模态校准来增强融合效果;对于严重冲突,则选择性地丢弃误导性模态,避免融合带来的负面影响。DCR通过双路径学习来实现这一目标:一条路径负责模态融合和校准(AFD),另一条路径负责模态选择和仲裁(ADA)。
技术框架:DCR框架包含两个主要路径:情感融合蒸馏器(AFD)和情感辨别代理(ADA)。AFD通过反向蒸馏,利用音频和视觉模态的信息来增强文本模态的表示,从而实现跨模态校准。ADA将MER问题建模为上下文bandit问题,根据当前的多模态上下文状态,选择融合所有模态或选择单个模态进行预测。框架的整体流程是:首先,AFD对模态进行校准和融合;然后,ADA根据校准后的模态表示,选择最佳的预测方式。
关键创新:DCR的关键创新在于其双路径设计,能够同时进行模态融合和模态选择。AFD通过反向蒸馏实现表示层面的校准,而ADA通过上下文bandit算法实现决策层面的仲裁。这种软校准与硬仲裁相结合的方式,能够有效地处理不同类型的模态冲突。此外,DCR不需要额外的模态可靠性标签,而是通过学习的方式来判断模态的可靠性。
关键设计:AFD使用时间加权类证据进行反向蒸馏,损失函数包括分类损失和蒸馏损失。ADA的状态表示包括融合后的多模态表示和单模态表示,奖励函数基于预测结果的准确性和校准程度。ADA使用深度Q网络(DQN)来学习最优的模态选择策略。具体的网络结构和参数设置根据不同的数据集进行调整。
🖼️ 关键图片
📊 实验亮点
DCR在五个多模态情感识别基准测试中取得了显著的性能提升。例如,在CMU-MOSI数据集上,DCR的准确率比基线方法提升了2-3个百分点。消融实验表明,AFD和ADA两个模块是互补的,共同提高了模型的性能。特定于冲突的子集评估表明,DCR在处理严重冲突的样本时表现尤为出色。模态选择分析表明,ADA能够有效地选择最可靠的模态进行预测。
🎯 应用场景
DCR框架可应用于各种多模态情感识别场景,例如智能客服、情感分析、人机交互等。通过更准确地识别用户的情感,可以提升服务的质量和用户体验。此外,DCR还可以应用于社交媒体分析,帮助识别网络上的恶意言论和情感操纵行为。该研究对于提升情感识别的鲁棒性和可靠性具有重要意义。
📄 摘要(原文)
Multimodal emotion recognition (MER) benefits from combining text, audio, and vision, yet standard fusion often fails when modalities conflict. Crucially, conflicts differ in resolvability: benign conflicts stem from missing, weak, or ambiguous cues and can be mitigated by cross-modal calibration, while severe conflicts arise from intrinsically contradictory (e.g., sarcasm) or misleading signals, for which forced fusion may amplify errors. Recognizing this, we propose Dual-Path Conflict Resolution (DCR), a unified framework that learns when to fuse and when to drop modalities. Path I (Affective Fusion Distiller, AFD) performs reverse distillation from audio/visual teachers to a textual student using temporally weighted class evidence, thereby enhancing representation-level calibration and improving fusion when alignment is beneficial. Path II (Affective Discernment Agent, ADA) formulates MER as a contextual bandit that selects among fusion and unimodal predictions based on a dual-view state and a calibration-aware reward, enabling decision-level arbitration under irreconcilable conflicts without requiring per-modality reliability labels. By taking into account the full multimodal context and coupling soft calibration with hard arbitration, DCR reconciles conflicts that can be aligned while bypassing misleading modalities when fusion is harmful. Across five benchmarks covering both dialogue-level and clip-level MER, DCR consistently outperforms competitive baselines or achieves highly competitive results. Further ablations, conflict-specific subset evaluation, and modality-selection analysis verify that AFD and ADA are complementary and jointly improve robust conflict-aware emotion recognition.