Le MuMo JEPA: Multi-Modal Self-Supervised Representation Learning with Learnable Fusion Tokens
作者: Ciem Cornelissen, Sam Leroux, Pieter Simoens
分类: cs.CV
发布日期: 2026-03-25
💡 一句话要点
Le MuMo JEPA:利用可学习融合令牌的多模态自监督表征学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 自监督学习 表征学习 Transformer 融合令牌 自动驾驶 深度估计
📋 核心要点
- 现有自监督学习方法大多基于单模态数据,忽略了异构传感器提供的互补结构信息。
- Le MuMo JEPA通过学习融合令牌,在共享Transformer中融合多模态信息,实现统一表征学习。
- 实验表明,该方法在Waymo和nuScenes数据集上表现出色,并在FLIR数据集上取得了最佳结果,同时降低了计算成本。
📝 摘要(中文)
本文提出Le MuMo JEPA,一个自监督框架,用于从RGB图像和对齐的辅助模态中学习统一的表征。该方法通过学习融合令牌,将LeJEPA扩展到多模态设置,这些融合令牌充当共享Transformer内部模态特定patch stem之间的潜在瓶颈。默认模型采用剪枝融合策略:在初始跨模态注意力层之后,删除模态特定令牌,迫使跨模态信息进入共享的融合令牌网格,作为在应用于联合多模态CLS嵌入的Sketched Isotropic Gaussian Regularization (SIGReg)之前的有效潜在瓶颈。在Waymo数据集上,Le MuMo JEPA在从头开始训练的多模态基线中,在下游patch probes上实现了最强的性能-效率权衡,改进了CenterNet检测和密集深度估计,同时在分割方面保持竞争力。在nuScenes数据集上从头开始训练时,Le MuMo JEPA仍然是最强的模型,并且在FLIR数据集上也给出了最好的结果,尤其是在Waymo初始化的微调之后。它还在我们的研究中保持了最佳的整体准确性-效率平衡,同时显著降低了计算、内存和估计的训练时间。
🔬 方法详解
问题定义:现有自监督学习方法主要集中在单模态数据上,无法有效利用来自多个传感器(如RGB相机和LiDAR)的互补信息。这限制了模型在复杂环境中的感知能力,尤其是在自动驾驶等需要多模态融合的场景中。现有方法在多模态融合方面效率较低,需要大量的计算资源和训练时间。
核心思路:Le MuMo JEPA的核心思路是通过学习一组融合令牌(Fusion Tokens)作为不同模态信息之间的桥梁,将多模态信息压缩到一个共享的潜在空间中。这些融合令牌充当模态特定特征之间的瓶颈,迫使模型学习跨模态的共享表征,从而提高模型的泛化能力和效率。
技术框架:Le MuMo JEPA的整体架构包括以下几个主要模块:1) 模态特定Patch Stem:用于提取每个模态(如RGB图像和LiDAR深度图)的局部特征。2) 跨模态注意力层:用于初步融合不同模态的信息。3) 剪枝融合策略:在跨模态注意力层之后,删除模态特定令牌,只保留融合令牌。4) 共享Transformer:利用融合令牌进行进一步的特征提取和表征学习。5) Sketched Isotropic Gaussian Regularization (SIGReg):应用于联合多模态CLS嵌入,以提高模型的鲁棒性。
关键创新:Le MuMo JEPA的关键创新在于引入了可学习的融合令牌,并采用剪枝融合策略。与传统的直接拼接或注意力融合方法相比,融合令牌可以更有效地压缩和融合多模态信息,减少计算量和内存占用。剪枝融合策略进一步提高了模型的效率,同时避免了过拟合。
关键设计:在网络结构方面,Le MuMo JEPA基于Transformer架构,并针对多模态融合进行了优化。融合令牌的数量是一个关键参数,需要根据具体任务和数据集进行调整。损失函数方面,Le MuMo JEPA采用了自监督学习中常用的对比学习损失,并结合SIGReg正则化方法,以提高模型的泛化能力。具体而言,SIGReg通过在嵌入空间中引入高斯噪声,鼓励模型学习更鲁棒的表征。
🖼️ 关键图片
📊 实验亮点
Le MuMo JEPA在Waymo数据集上,相较于从头训练的多模态基线,在下游patch probes上实现了最强的性能-效率权衡,改进了CenterNet检测和密集深度估计,同时在分割方面保持竞争力。在nuScenes数据集上从头开始训练时,Le MuMo JEPA仍然是最强的模型,并且在FLIR数据集上也给出了最好的结果,尤其是在Waymo初始化的微调之后。该方法在保持最佳的整体准确性-效率平衡的同时,显著降低了计算、内存和估计的训练时间。
🎯 应用场景
Le MuMo JEPA适用于需要多模态信息融合的场景,例如自动驾驶、机器人导航、智能监控等。通过融合RGB图像、LiDAR、毫米波雷达等多种传感器数据,可以提高环境感知精度和鲁棒性,从而提升自动驾驶系统的安全性。该方法还可以应用于医学图像分析,例如融合CT和MRI图像,以提高疾病诊断的准确性。
📄 摘要(原文)
Self-supervised learning has emerged as a powerful paradigm for learning visual representations without manual annotations, yet most methods still operate on a single modality and therefore miss the complementary structure available from heterogeneous sensors. We present Le MuMo JEPA, a self-supervised framework that learns unified representations from RGB images and aligned companion modalities. In our driving experiments, the second modality is camera-aligned LiDAR depth; we also evaluate RGB-thermal training and transfer on the Teledyne FLIR ADAS benchmark. Our approach extends LeJEPA to the multi-modal setting by learning fusion tokens that act as a latent bottleneck between modality-specific patch stems inside a shared transformer. Our default model employs a pruned fusion strategy: after an initial cross-modal attention layer, modality-specific tokens are dropped, forcing cross-modal information into the shared fusion-token grid as an efficient latent bottleneck before Sketched Isotropic Gaussian Regularization (SIGReg) is applied to the joint multimodal CLS embedding. On Waymo, Le MuMo JEPA gives the strongest performance-efficiency trade-off on downstream patch probes among the from-scratch multimodal baselines, improving CenterNet detection and dense depth while remaining competitive on segmentation. Under from-scratch training on nuScenes, Le MuMo JEPA remains the strongest model, and it also gives the best FLIR results, especially after Waymo-initialized fine-tuning. It also retains the best overall accuracy-efficiency balance in our study at substantially lower compute, memory, and estimated training time.