DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis

📄 arXiv: 2504.11082v1 📥 PDF

作者: Efthymios Georgiou, Vassilis Katsouros, Yannis Avrithis, Alexandros Potamianos

分类: cs.CL, cs.AI

发布日期: 2025-04-15

备注: Preprint


💡 一句话要点

DeepMLF:一种基于可学习Token的多模态语言模型,用于情感分析中的深度融合

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感分析 深度融合 可学习Token 语言模型 跨模态学习

📋 核心要点

  1. 现有MSA方法在融合深度和多模态容量分配方面存在不足,限制了模型性能。
  2. DeepMLF通过引入可学习token,在多层LM中逐步融合音视频信息,实现更深层次的模态交互。
  3. 实验表明,DeepMLF在多个MSA基准测试中达到SOTA,验证了深度融合和专用多模态容量的有效性。

📝 摘要(中文)

本文针对多模态情感分析(MSA)中融合深度和多模态容量分配不足的问题,将融合深度、可扩展性和专用多模态容量作为有效融合的关键因素。我们提出了一种新的多模态语言模型(LM) DeepMLF,它使用专门为深度融合设计的可学习token。DeepMLF利用音视频编码器和一个预训练的解码器LM,并在其各层中增强多模态信息。我们向LM附加可学习的token,以1)以受控方式捕获模态交互,2)保持每种模态的独立信息流。这些融合token通过LM块中的因果自注意力收集语言信息,并通过交叉注意力MM块与音视频信息集成。这种设计作为专用的多模态容量,可以在多个层上进行渐进式融合,从而提供融合过程的深度。我们的训练方法结合了模态特定的损失和语言建模损失,解码器LM的任务是预测ground truth极性。在具有不同数据集特征的三个MSA基准测试中,DeepMLF实现了最先进的性能。我们的结果证实,更深的融合可以带来更好的性能,最佳融合深度(5-7)超过了现有方法。此外,我们对融合token数量的分析表明,少量token集(~20)可以实现最佳性能。我们通过音视频编码器初始化实验,研究了表征学习顺序(融合课程)的重要性。我们的消融研究证明了所提出的融合设计和门控的优越性,同时对DeepMLF扩展到LLM、每个训练目标和嵌入正则化的影响进行了全面检查。

🔬 方法详解

问题定义:现有的多模态情感分析方法在融合不同模态的信息时,通常采用较浅的融合策略,未能充分挖掘模态间的深层交互关系。此外,如何有效地分配模型容量以处理不同模态的信息也是一个挑战,简单的拼接或加权平均等方法难以捕捉模态间的复杂依赖关系。

核心思路:DeepMLF的核心思路是通过引入可学习的融合token,在预训练语言模型的多个层级上逐步融合音视频信息。这些token充当了模态交互的桥梁,允许模型在更深层次上学习模态间的关联性,同时保持各模态信息的独立性。这种深度融合策略旨在提升模型对多模态情感的理解能力。

技术框架:DeepMLF主要由三个部分组成:音视频编码器、预训练的解码器语言模型(LM)以及融合模块。音视频编码器负责提取视觉和听觉特征,解码器LM负责处理文本信息。融合模块通过将可学习的融合token插入到LM的每一层,并利用交叉注意力机制将音视频特征与语言特征进行融合。整个框架采用端到端的方式进行训练。

关键创新:DeepMLF的关键创新在于引入了可学习的融合token,并将其与预训练语言模型相结合,实现了深度多模态融合。与传统的浅层融合方法相比,DeepMLF能够更有效地捕捉模态间的复杂交互关系。此外,通过控制融合token的数量,可以灵活地调整模型的容量分配,从而优化模型性能。

关键设计:DeepMLF的关键设计包括:1) 使用可学习的token进行模态融合;2) 在LM的多个层级上进行深度融合;3) 采用模态特定的损失函数和语言建模损失函数进行联合训练;4) 通过实验确定最佳的融合token数量和融合深度;5) 通过音视频编码器初始化实验,研究表征学习顺序的影响。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

DeepMLF在三个MSA基准测试中取得了SOTA性能,证明了其深度融合策略的有效性。实验结果表明,最佳融合深度为5-7层,融合token数量约为20个时,模型性能最佳。消融实验验证了所提出的融合设计和门控机制的优越性。此外,研究还探讨了DeepMLF扩展到LLM的可能性,以及不同训练目标和嵌入正则化方法对模型性能的影响。

🎯 应用场景

DeepMLF在多模态情感分析领域具有广泛的应用前景,例如社交媒体情感监控、在线评论分析、客户服务质量评估等。该研究的成果可以帮助企业更好地理解用户的情感倾向,从而优化产品设计、改进服务质量,并提升用户满意度。此外,DeepMLF的深度融合策略也可以推广到其他多模态任务中,例如视频理解、人机交互等。

📄 摘要(原文)

While multimodal fusion has been extensively studied in Multimodal Sentiment Analysis (MSA), the role of fusion depth and multimodal capacity allocation remains underexplored. In this work, we position fusion depth, scalability, and dedicated multimodal capacity as primary factors for effective fusion. We introduce DeepMLF, a novel multimodal language model (LM) with learnable tokens tailored toward deep fusion. DeepMLF leverages an audiovisual encoder and a pretrained decoder LM augmented with multimodal information across its layers. We append learnable tokens to the LM that: 1) capture modality interactions in a controlled fashion and 2) preserve independent information flow for each modality. These fusion tokens gather linguistic information via causal self-attention in LM Blocks and integrate with audiovisual information through cross-attention MM Blocks. Serving as dedicated multimodal capacity, this design enables progressive fusion across multiple layers, providing depth in the fusion process. Our training recipe combines modality-specific losses and language modelling loss, with the decoder LM tasked to predict ground truth polarity. Across three MSA benchmarks with varying dataset characteristics, DeepMLF achieves state-of-the-art performance. Our results confirm that deeper fusion leads to better performance, with optimal fusion depths (5-7) exceeding those of existing approaches. Additionally, our analysis on the number of fusion tokens reveals that small token sets ($\sim$20) achieve optimal performance. We examine the importance of representation learning order (fusion curriculum) through audiovisual encoder initialization experiments. Our ablation studies demonstrate the superiority of the proposed fusion design and gating while providing a holistic examination of DeepMLF's scalability to LLMs, and the impact of each training objective and embedding regularization.