Gated Recursive Fusion: A Stateful Approach to Scalable Multimodal Transformers
作者: Yusuf Shihata
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-07-01
备注: 13 pages, 2 figures
💡 一句话要点
提出门控递归融合(GRF),以线性复杂度实现可扩展的多模态Transformer。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 递归神经网络 Transformer 门控机制 情感分析 线性复杂度 可扩展性
📋 核心要点
- 现有交叉注意力模型在多模态融合中表现出色,但计算复杂度随模态数量呈二次方增长,限制了其在高维模态场景的应用。
- 论文提出门控递归融合(GRF),通过递归方式顺序处理模态,利用门控机制动态更新多模态上下文向量,实现线性复杂度的融合。
- 在CMU-MOSI基准测试中,GRF取得了与更复杂模型相当的性能,并生成了结构化的、类可分离的嵌入表示,验证了其有效性。
📝 摘要(中文)
多模态学习面临着深度细粒度融合和计算可扩展性之间的根本矛盾。交叉注意力模型通过详尽的成对融合实现了强大的性能,但其二次复杂度在高模态数量的场景中令人望而却步。本文提出了门控递归融合(GRF),这是一种新颖的架构,它在线性可扩展的递归管道中捕获了跨模态注意力的强大功能。该方法按顺序处理模态,并在每个步骤更新不断演变的多模态上下文向量。该方法的核心是基于Transformer解码器层的融合块,该融合块执行对称交叉注意力,相互丰富共享上下文和传入模态。然后,通过门控融合单元(GFU)集成这些丰富的信息,GFU是一种受GRU启发的机制,可动态仲裁信息流,使模型能够有选择地保留或丢弃特征。这种有状态的递归设计随模态数量线性扩展,O(n),使其成为高模态环境的理想选择。在CMU-MOSI基准上的实验表明,与更复杂的基线相比,GRF实现了具有竞争力的性能。嵌入空间的可视化进一步表明,GRF通过其渐进式融合机制创建了结构化的、类可分离的表示。这项工作为强大、可扩展的多模态表示学习提供了一个鲁棒而高效的范例。
🔬 方法详解
问题定义:多模态学习旨在融合来自不同来源的信息,以提高模型的性能。然而,现有的基于交叉注意力的方法,例如Transformer,在处理大量模态时面临计算瓶颈,因为它们的复杂度随模态数量呈二次方增长。这限制了它们在需要处理多种类型数据的实际应用中的应用,例如涉及文本、图像、音频和视频的场景。
核心思路:GRF的核心思想是通过递归的方式逐步融合不同模态的信息,从而避免了传统交叉注意力的二次复杂度。它维护一个多模态上下文向量,并在每个步骤中,使用Transformer解码器层将当前模态的信息与上下文向量进行融合。这种递归的方式使得计算复杂度与模态数量呈线性关系,从而实现了可扩展的多模态融合。
技术框架:GRF的整体架构包含以下几个主要模块:1) 模态嵌入层:将不同模态的数据转换为统一的向量表示。2) 融合块:基于Transformer解码器层,执行对称交叉注意力,将当前模态的信息与多模态上下文向量进行融合。3) 门控融合单元(GFU):受GRU启发,动态地控制信息的流动,决定保留或丢弃哪些特征。4) 递归循环:按顺序处理每个模态,并在每个步骤更新多模态上下文向量。
关键创新:GRF的关键创新在于其递归融合的框架和门控融合单元的设计。递归融合使得模型能够以线性复杂度处理大量模态,而门控融合单元则允许模型动态地选择哪些信息应该被保留或丢弃,从而提高了模型的鲁棒性和泛化能力。与传统的交叉注意力方法相比,GRF在计算效率和模型性能之间取得了更好的平衡。
关键设计:GRF的关键设计包括:1) 使用Transformer解码器层作为融合块,以捕捉模态之间的复杂关系。2) 设计门控融合单元(GFU),使用sigmoid函数控制信息的流动。3) 使用残差连接和层归一化来提高模型的训练稳定性和性能。4) 损失函数采用标准的交叉熵损失函数,用于分类任务。
🖼️ 关键图片
📊 实验亮点
在CMU-MOSI情感分析基准测试中,GRF取得了与现有最先进模型相当的性能,同时显著降低了计算复杂度。可视化结果表明,GRF能够生成结构化的、类可分离的嵌入表示,这表明其能够有效地捕捉不同模态之间的关系。GRF在保证性能的同时,实现了更好的可扩展性。
🎯 应用场景
GRF适用于需要处理大量模态数据的各种应用场景,例如情感分析、多媒体内容理解、机器人感知和自动驾驶。它可以用于融合来自文本、图像、音频和视频等不同来源的信息,以提高模型的准确性和鲁棒性。未来,GRF可以进一步扩展到处理更复杂的模态关系,并应用于更广泛的领域。
📄 摘要(原文)
Multimodal learning faces a fundamental tension between deep, fine-grained fusion and computational scalability. While cross-attention models achieve strong performance through exhaustive pairwise fusion, their quadratic complexity is prohibitive for settings with many modalities. We address this challenge with Gated Recurrent Fusion (GRF), a novel architecture that captures the power of cross-modal attention within a linearly scalable, recurrent pipeline. Our method processes modalities sequentially, updating an evolving multimodal context vector at each step. The core of our approach is a fusion block built on Transformer Decoder layers that performs symmetric cross-attention, mutually enriching the shared context and the incoming modality. This enriched information is then integrated via a Gated Fusion Unit (GFU) a GRU-inspired mechanism that dynamically arbitrates information flow, enabling the model to selectively retain or discard features. This stateful, recurrent design scales linearly with the number of modalities, O(n), making it ideal for high-modality environments. Experiments on the CMU-MOSI benchmark demonstrate that GRF achieves competitive performance compared to more complex baselines. Visualizations of the embedding space further illustrate that GRF creates structured, class-separable representations through its progressive fusion mechanism. Our work presents a robust and efficient paradigm for powerful, scalable multimodal representation learning.