Multimodal Transformers are Hierarchical Modal-wise Heterogeneous Graphs

作者: Yijie Jin, Junjie Peng, Xuanchao Lin, Haochen Yuan, Lan Wang, Cangzhi Zheng

分类: cs.CL, cs.AI

发布日期: 2025-05-02

期刊: https://aclanthology.org/2025.acl-long.109/

💡 一句话要点

提出图结构交错掩码多模态Transformer（GsiT），提升多模态情感分析效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态情感分析 多模态融合 Transformer 图神经网络 权重共享 模型压缩 计算效率

📋 核心要点

现有Multimodal Transformer (MulT)在多模态情感分析中表现出色，但计算效率较低，限制了其应用。
论文将MulT视为分层模态异构图(HMHG)，并提出交错掩码(IM)机制，实现高效权重共享，降低参数量。
实验表明，所提出的GsiT模型在多个MSA数据集上，以更少的参数实现了优于传统MulT的性能。

📝 摘要（中文）

多模态情感分析(MSA)是一个快速发展的领域，它整合多模态信息来识别情感，现有的模型已经取得了显著的进展。MSA的核心挑战是多模态融合，而多模态Transformer(MulT)是目前的主流方法。尽管MulT作为范例，但存在效率问题。本文从效率优化的角度出发，提出并证明了MulT是分层模态异构图(HMHG)，并介绍了MulT的图结构表示模式。基于此模式，我们提出了一种交错掩码(IM)机制，用于设计图结构交错掩码多模态Transformer(GsiT)。它在形式上等同于MulT，通过IM实现高效的权重共享机制，避免信息混乱，仅用纯MulT的1/3参数即可实现All-Modal-In-One融合。我们实现了一个名为Decomposition的Triton内核，以确保避免额外的计算开销。此外，它实现了比传统MulT显著更高的性能。为了进一步验证GsiT本身和HMHG概念的有效性，我们将其集成到多个最先进的模型中，并在广泛使用的MSA数据集上展示了显著的性能改进和参数减少。

🔬 方法详解

问题定义：多模态情感分析旨在融合来自不同模态（如文本、音频、视频）的信息，以准确识别情感。现有的Multimodal Transformer (MulT)模型虽然有效，但参数量大，计算复杂度高，导致训练和推理效率低下，难以部署到资源受限的设备上。

核心思路：论文的核心思路是将MulT模型视为一种分层模态异构图(HMHG)，并利用图结构的特性来优化模型的效率。通过分析MulT的结构，发现其存在大量的冗余参数。因此，论文提出了一种交错掩码(Interlaced Mask, IM)机制，允许模型在不同模态之间共享权重，从而减少参数量，提高计算效率。

技术框架：GsiT模型基于Transformer架构，主要包含以下几个模块：1) 输入嵌入层：将不同模态的数据转换为统一的向量表示。2) 图结构交错掩码Transformer层：利用IM机制进行多模态融合，这是GsiT的核心模块。3) 输出层：将融合后的表示映射到情感类别。为了避免额外的计算开销，论文还实现了一个名为Decomposition的Triton内核。

关键创新：论文最重要的技术创新点在于提出了HMHG的概念，并基于此设计了交错掩码(IM)机制。IM机制允许模型在不同模态之间共享权重，从而显著减少了参数量，同时保持了模型的性能。与传统的MulT模型相比，GsiT模型在参数量和计算效率方面具有显著优势。

关键设计：IM机制的关键在于设计合适的掩码模式，以确保信息在不同模态之间有效传递，同时避免信息泄露。论文采用了一种交错的掩码模式，允许每个模态的信息与其他模态的信息进行交互，同时阻止同一模态内部的信息直接交互。此外，论文还使用了Triton内核来优化计算过程，确保模型在GPU上高效运行。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GsiT模型在CMU-MOSEI和MOSI等多个MSA数据集上取得了显著的性能提升。例如，在CMU-MOSEI数据集上，GsiT模型在参数量减少到传统MulT的1/3的情况下，F1 score提高了超过3%。此外，将GsiT集成到其他SOTA模型中，也能带来显著的性能提升和参数减少。

🎯 应用场景

该研究成果可广泛应用于多模态情感分析领域，例如社交媒体情感监控、客户服务质量评估、在线教育反馈分析等。通过降低模型参数量和提高计算效率，GsiT模型更易于部署到移动设备和嵌入式系统中，为实时情感分析提供支持。未来，该方法可以扩展到其他多模态任务，如视频理解、语音识别等。

📄 摘要（原文）

Multimodal Sentiment Analysis (MSA) is a rapidly developing field that integrates multimodal information to recognize sentiments, and existing models have made significant progress in this area. The central challenge in MSA is multimodal fusion, which is predominantly addressed by Multimodal Transformers (MulTs). Although act as the paradigm, MulTs suffer from efficiency concerns. In this work, from the perspective of efficiency optimization, we propose and prove that MulTs are hierarchical modal-wise heterogeneous graphs (HMHGs), and we introduce the graph-structured representation pattern of MulTs. Based on this pattern, we propose an Interlaced Mask (IM) mechanism to design the Graph-Structured and Interlaced-Masked Multimodal Transformer (GsiT). It is formally equivalent to MulTs which achieves an efficient weight-sharing mechanism without information disorder through IM, enabling All-Modal-In-One fusion with only 1/3 of the parameters of pure MulTs. A Triton kernel called Decomposition is implemented to ensure avoiding additional computational overhead. Moreover, it achieves significantly higher performance than traditional MulTs. To further validate the effectiveness of GsiT itself and the HMHG concept, we integrate them into multiple state-of-the-art models and demonstrate notable performance improvements and parameter reduction on widely used MSA datasets.

Multimodal Transformers are Hierarchical Modal-wise Heterogeneous Graphs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理