OmniVec2 -- A Novel Transformer based Network for Large Scale Multimodal and Multitask Learning

📄 arXiv: 2507.13364v1 📥 PDF

作者: Siddharth Srivastava, Gaurav Sharma

分类: cs.CV, cs.AI

发布日期: 2025-07-06

期刊: CVPR 2024


💡 一句话要点

OmniVec2:一种用于大规模多模态多任务学习的新型Transformer网络

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 多任务学习 Transformer 交叉注意力 预训练 模态融合 深度学习

📋 核心要点

  1. 现有方法难以有效融合多种模态数据,并在多任务场景下实现高性能,面临着模态异构性和任务冲突的挑战。
  2. OmniVec2通过模态特定tokenizer、共享Transformer架构和交叉注意力机制,将不同模态数据映射到统一嵌入空间,实现有效融合。
  3. 实验结果表明,OmniVec2在涵盖12种模态的25个数据集上取得了SOTA性能,验证了其架构、预训练策略和多任务训练的有效性。

📝 摘要(中文)

本文提出了一种新颖的多模态多任务网络和相关的训练算法。该方法能够处理来自大约12种不同模态的数据,包括图像、视频、音频、文本、深度、点云、时间序列、表格数据、图数据、X射线、红外、IMU和高光谱数据。该方法利用模态特定的tokenizer、共享的Transformer架构和交叉注意力机制,将来自不同模态的数据投影到统一的嵌入空间中。它通过为各个模态的不同任务合并模态特定的任务头来解决多模态和多任务场景。我们提出了一种新颖的预训练策略,通过迭代模态切换来初始化网络,以及一种训练算法,该算法在所有模态上的完全联合训练与一次训练模态对之间进行权衡。我们提供了跨越来自12种模态的25个数据集的全面评估,并展示了最先进的性能,证明了所提出的架构、预训练策略和适应的多任务训练的有效性。

🔬 方法详解

问题定义:论文旨在解决大规模多模态多任务学习问题。现有方法难以有效处理多种模态的数据,并且在多任务学习中容易出现任务之间的冲突,导致性能下降。此外,如何有效地利用不同模态之间的互补信息也是一个挑战。

核心思路:论文的核心思路是将不同模态的数据通过模态特定的tokenizer转换为统一的token表示,然后利用共享的Transformer架构进行特征提取和融合。通过交叉注意力机制,不同模态之间可以相互关注,从而更好地利用彼此的信息。此外,论文还提出了一种新颖的预训练策略和训练算法,以提高模型的性能。

技术框架:OmniVec2的整体架构包括以下几个主要模块:1) 模态特定的Tokenizer:将不同模态的数据转换为token表示。2) 共享Transformer架构:用于特征提取和融合。3) 交叉注意力机制:用于不同模态之间的信息交互。4) 模态特定的任务头:用于执行不同模态上的特定任务。训练流程包括预训练阶段和微调阶段。预训练阶段采用迭代模态切换策略,微调阶段则根据具体任务进行调整。

关键创新:OmniVec2的关键创新在于其能够有效地处理多种模态的数据,并且在多任务学习中取得了良好的性能。其核心创新点包括:1) 模态特定的Tokenizer,能够有效地将不同模态的数据转换为统一的token表示。2) 共享Transformer架构和交叉注意力机制,能够有效地进行特征提取和融合,并利用不同模态之间的互补信息。3) 新颖的预训练策略和训练算法,能够提高模型的性能。

关键设计:在模态特定的Tokenizer中,针对不同的模态采用了不同的tokenizer。例如,对于图像数据,可以采用ViT的patch embedding方法;对于文本数据,可以采用WordPiece tokenizer。在共享Transformer架构中,采用了标准的Transformer encoder结构。在交叉注意力机制中,采用了multi-head attention。在预训练阶段,采用了迭代模态切换策略,即每次只训练两个模态的数据,然后不断切换模态对,以提高模型的泛化能力。损失函数根据具体任务进行选择,例如,对于分类任务,可以采用交叉熵损失函数;对于回归任务,可以采用均方误差损失函数。

🖼️ 关键图片

fig_0

📊 实验亮点

OmniVec2在涵盖12种模态的25个数据集上进行了评估,并取得了SOTA性能。具体来说,在某些数据集上,OmniVec2的性能比现有方法提高了显著的幅度。这些实验结果证明了OmniVec2的有效性和泛化能力。

🎯 应用场景

OmniVec2具有广泛的应用前景,例如在自动驾驶领域,可以融合图像、激光雷达和IMU等多种传感器数据,提高环境感知能力。在医疗诊断领域,可以融合X射线、CT扫描和病理报告等多种模态数据,辅助医生进行诊断。此外,该方法还可以应用于机器人、智能家居等领域。

📄 摘要(原文)

We present a novel multimodal multitask network and associated training algorithm. The method is capable of ingesting data from approximately 12 different modalities namely image, video, audio, text, depth, point cloud, time series, tabular, graph, X-ray, infrared, IMU, and hyperspectral. The proposed approach utilizes modality specialized tokenizers, a shared transformer architecture, and cross-attention mechanisms to project the data from different modalities into a unified embedding space. It addresses multimodal and multitask scenarios by incorporating modality-specific task heads for different tasks in respective modalities. We propose a novel pretraining strategy with iterative modality switching to initialize the network, and a training algorithm which trades off fully joint training over all modalities, with training on pairs of modalities at a time. We provide comprehensive evaluation across 25 datasets from 12 modalities and show state of the art performances, demonstrating the effectiveness of the proposed architecture, pretraining strategy and adapted multitask training.