Multimodal Video Emotion Recognition with Reliable Reasoning Priors

作者: Zhepeng Wang, Yingjian Zhu, Guanghao Dong, Hongzhu Yi, Feng Chen, Xinming Wang, Jun Xie

分类: cs.CV, cs.AI

发布日期: 2025-07-29

备注: preprint

💡 一句话要点

提出基于可靠推理先验的多模态视频情感识别框架，提升类不平衡场景性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态情感识别 大型语言模型 推理先验 跨模态融合 类别不平衡 对比学习 知识增强

📋 核心要点

多模态情感识别面临类别不平衡问题，现有方法难以有效利用跨模态信息。
利用大型语言模型生成细粒度推理轨迹作为先验知识，指导跨模态融合，提升模型性能。
引入平衡双对比学习损失，缓解类别不平衡问题，在MER2024数据集上取得显著提升。

📝 摘要（中文）

本研究探讨了将来自大型语言模型（MLLM）的可信先验推理知识整合到多模态情感识别中的方法。我们利用Gemini生成细粒度的、模态可分离的推理轨迹，并在融合阶段将其作为先验注入，以丰富跨模态交互。为了缓解多模态情感识别中显著的类别不平衡问题，我们引入了平衡双对比学习，这是一种联合平衡类间和类内分布的损失函数。应用于MER2024基准测试，我们的先验增强框架产生了显著的性能提升，表明MLLM导出的推理的可靠性可以与轻量级融合网络的领域适应性协同结合，从而实现鲁棒、可扩展的情感识别。

🔬 方法详解

问题定义：多模态情感识别旨在从视频、音频和文本等多模态数据中准确识别情感。然而，现有方法在处理类别不平衡问题以及有效利用跨模态信息方面存在不足，尤其是在推理过程中缺乏可靠的先验知识指导。

核心思路：本论文的核心思路是利用大型语言模型（MLLM）生成可靠的推理先验知识，并将其注入到多模态融合过程中，以增强跨模态交互，提升情感识别的准确性和鲁棒性。同时，设计平衡双对比学习损失函数，缓解类别不平衡问题。

技术框架：该框架主要包含三个阶段：1) 使用Gemini等MLLM生成细粒度的、模态可分离的推理轨迹；2) 将这些推理轨迹作为先验知识注入到多模态融合模块中，指导跨模态特征的交互；3) 使用平衡双对比学习损失函数训练模型，平衡类间和类内分布。

关键创新：该论文的关键创新在于：1) 提出利用MLLM生成可靠的推理先验知识，并将其融入到多模态情感识别中，这是一种新颖的知识增强方法；2) 设计了平衡双对比学习损失函数，有效缓解了类别不平衡问题。

关键设计：平衡双对比学习损失函数的设计是关键。它包含两个对比损失：一个是类间对比损失，旨在拉开不同类别之间的距离；另一个是类内对比损失，旨在缩小同一类别内部的距离。通过联合优化这两个对比损失，可以有效地平衡类间和类内分布，从而提升模型在类别不平衡场景下的性能。

🖼️ 关键图片

📊 实验亮点

在MER2024基准测试中，该方法取得了显著的性能提升。通过引入MLLM推理先验和平衡双对比学习，模型在情感识别准确率方面超越了现有基线方法，验证了该方法的有效性和优越性。具体性能数据和提升幅度在论文中进行了详细展示。

🎯 应用场景

该研究成果可应用于智能客服、在线教育、心理健康评估、人机交互等领域。通过准确识别用户的情感状态，可以提供更加个性化和人性化的服务，提升用户体验。未来，该方法可以扩展到其他多模态任务中，例如视频内容理解、行为识别等。

📄 摘要（原文）

This study investigates the integration of trustworthy prior reasoning knowledge from MLLMs into multimodal emotion recognition. We employ Gemini to generate fine-grained, modality-separable reasoning traces, which are injected as priors during the fusion stage to enrich cross-modal interactions. To mitigate the pronounced class-imbalance in multimodal emotion recognition, we introduce Balanced Dual-Contrastive Learning, a loss formulation that jointly balances inter-class and intra-class distributions. Applied to the MER2024 benchmark, our prior-enhanced framework yields substantial performance gains, demonstrating that the reliability of MLLM-derived reasoning can be synergistically combined with the domain adaptability of lightweight fusion networks for robust, scalable emotion recognition.

Multimodal Video Emotion Recognition with Reliable Reasoning Priors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理