TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition

作者: Feng Liu, Ziwang Fu, Yunlong Wang, Qijian Zheng

分类: cs.CV, cs.AI

发布日期: 2025-05-10

备注: arXiv admin note: text overlap with arXiv:2111.02172

🔗 代码/项目: GITHUB

💡 一句话要点

提出TACFN，利用Transformer自适应跨模态融合进行多模态情感识别

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态情感识别 跨模态融合 Transformer 自注意力机制 特征选择 互补信息 深度学习

📋 核心要点

现有跨模态情感识别方法依赖注意力机制，但易受冗余特征干扰，且互补信息捕捉不足。
TACFN通过自注意力进行模态内特征选择，自适应地与其他模态交互，减少冗余并增强互补性。
在RAVDESS和IEMOCAP数据集上，TACFN显著提升了情感识别性能，达到当前最优水平。

📝 摘要（中文）

多模态情感识别任务的关键在于融合技术。近年来，基于跨模态注意力融合的方法表现出高性能和强大的鲁棒性。然而，跨模态注意力存在冗余特征问题，并且不能很好地捕捉互补特征。我们发现，在跨模态交互过程中，没有必要使用一个模态的全部信息来增强另一个模态，并且能够增强一个模态的特征可能只包含其一部分。为此，我们设计了一种创新的基于Transformer的自适应跨模态融合网络(TACFN)。具体来说，针对冗余特征，我们使一个模态通过自注意力机制执行模态内特征选择，从而使所选特征能够自适应且高效地与另一个模态交互。为了更好地捕捉模态之间的互补信息，我们通过拼接获得融合权重向量，并使用该权重向量来实现模态的特征增强。我们将TCAFN应用于RAVDESS和IEMOCAP数据集。为了公平比较，我们使用相同的单模态表示来验证所提出的融合方法的有效性。实验结果表明，与其他方法相比，TACFN带来了显著的性能提升，并达到了最先进水平。所有代码和模型都可以从https://github.com/shuzihuaiyu/TACFN访问。

🔬 方法详解

问题定义：多模态情感识别旨在融合来自不同模态（如音频、视频、文本）的信息，以准确识别情感。现有基于跨模态注意力的方法虽然有效，但存在两个主要痛点：一是跨模态注意力机制容易受到冗余特征的干扰，即并非所有特征都有助于模态间的相互增强；二是难以充分捕捉不同模态之间的互补信息，导致融合效果不佳。

核心思路：TACFN的核心思路是自适应地进行跨模态融合，从而解决冗余特征和互补信息缺失的问题。具体来说，它首先通过自注意力机制对每个模态进行特征选择，去除冗余信息，然后利用选择后的特征进行跨模态交互。此外，TACFN还通过学习融合权重向量来增强模态间的互补信息，从而实现更有效的融合。这种自适应的方式能够更精确地捕捉模态间的关系，提升情感识别的准确性。

技术框架：TACFN的整体架构包含以下几个主要模块：1) 单模态特征提取：使用预训练模型或手工特征提取方法，从每个模态中提取特征表示。2) 模态内特征选择：对每个模态的特征进行自注意力加权，选择重要的特征子集。3) 跨模态特征融合：将选择后的特征进行拼接或加权融合，实现模态间的信息交互。4) 融合权重学习：通过拼接不同模态的特征，学习一个融合权重向量，用于增强模态间的互补信息。5) 情感分类：使用融合后的特征进行情感分类。

关键创新：TACFN的关键创新在于其自适应的跨模态融合机制。与传统的跨模态注意力方法不同，TACFN首先进行模态内特征选择，从而减少了冗余特征的干扰。此外，TACFN还通过学习融合权重向量来增强模态间的互补信息，进一步提升了融合效果。这种自适应的方式使得TACFN能够更有效地利用多模态信息，从而提升情感识别的准确性。

关键设计：在模态内特征选择模块，使用了Transformer的自注意力机制，通过学习每个特征的重要性权重，选择重要的特征子集。融合权重向量的学习是通过拼接不同模态的特征，然后使用一个全连接层进行预测。损失函数通常采用交叉熵损失函数，用于优化情感分类的准确性。具体的网络结构和参数设置需要根据不同的数据集和任务进行调整。

🖼️ 关键图片

📊 实验亮点

TACFN在RAVDESS和IEMOCAP数据集上取得了显著的性能提升。在RAVDESS数据集上，TACFN的准确率达到了X%，相比基线方法提升了Y%。在IEMOCAP数据集上，TACFN的准确率达到了Z%，同样优于其他方法。这些实验结果表明，TACFN能够有效地融合多模态信息，提升情感识别的准确性，具有很强的竞争力。

🎯 应用场景

TACFN在多模态情感识别领域具有广泛的应用前景，例如人机交互、智能客服、心理健康监测、电影推荐等。通过准确识别用户的情感状态，可以提升人机交互的自然性和流畅性，改善用户体验。此外，该技术还可以应用于舆情分析、市场调研等领域，帮助企业更好地了解用户需求和市场趋势。

📄 摘要（原文）

The fusion technique is the key to the multimodal emotion recognition task. Recently, cross-modal attention-based fusion methods have demonstrated high performance and strong robustness. However, cross-modal attention suffers from redundant features and does not capture complementary features well. We find that it is not necessary to use the entire information of one modality to reinforce the other during cross-modal interaction, and the features that can reinforce a modality may contain only a part of it. To this end, we design an innovative Transformer-based Adaptive Cross-modal Fusion Network (TACFN). Specifically, for the redundant features, we make one modality perform intra-modal feature selection through a self-attention mechanism, so that the selected features can adaptively and efficiently interact with another modality. To better capture the complementary information between the modalities, we obtain the fused weight vector by splicing and use the weight vector to achieve feature reinforcement of the modalities. We apply TCAFN to the RAVDESS and IEMOCAP datasets. For fair comparison, we use the same unimodal representations to validate the effectiveness of the proposed fusion method. The experimental results show that TACFN brings a significant performance improvement compared to other methods and reaches the state-of-the-art. All code and models could be accessed from https://github.com/shuzihuaiyu/TACFN.

TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理