Le MuMo JEPA: Multi-Modal Self-Supervised Representation Learning with Learnable Fusion Tokens

作者: Ciem Cornelissen, Sam Leroux, Pieter Simoens

分类: cs.CV

发布日期: 2026-03-25

💡 一句话要点

Le MuMo JEPA：利用可学习融合令牌的多模态自监督表征学习

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 自监督学习 表征学习 Transformer 融合令牌 自动驾驶 深度估计

📋 核心要点

现有自监督学习方法大多基于单模态数据，忽略了异构传感器提供的互补结构信息。
Le MuMo JEPA通过学习融合令牌，在共享Transformer中融合多模态信息，实现统一表征学习。
实验表明，该方法在Waymo和nuScenes数据集上表现出色，并在FLIR数据集上取得了最佳结果，同时降低了计算成本。

📝 摘要（中文）

本文提出Le MuMo JEPA，一个自监督框架，用于从RGB图像和对齐的辅助模态中学习统一的表征。该方法通过学习融合令牌，将LeJEPA扩展到多模态设置，这些融合令牌充当共享Transformer内部模态特定patch stem之间的潜在瓶颈。默认模型采用剪枝融合策略：在初始跨模态注意力层之后，删除模态特定令牌，迫使跨模态信息进入共享的融合令牌网格，作为在应用于联合多模态CLS嵌入的Sketched Isotropic Gaussian Regularization (SIGReg)之前的有效潜在瓶颈。在Waymo数据集上，Le MuMo JEPA在从头开始训练的多模态基线中，在下游patch probes上实现了最强的性能-效率权衡，改进了CenterNet检测和密集深度估计，同时在分割方面保持竞争力。在nuScenes数据集上从头开始训练时，Le MuMo JEPA仍然是最强的模型，并且在FLIR数据集上也给出了最好的结果，尤其是在Waymo初始化的微调之后。它还在我们的研究中保持了最佳的整体准确性-效率平衡，同时显著降低了计算、内存和估计的训练时间。

🔬 方法详解

问题定义：现有自监督学习方法主要集中在单模态数据上，无法有效利用来自多个传感器（如RGB相机和LiDAR）的互补信息。这限制了模型在复杂环境中的感知能力，尤其是在自动驾驶等需要多模态融合的场景中。现有方法在多模态融合方面效率较低，需要大量的计算资源和训练时间。

核心思路：Le MuMo JEPA的核心思路是通过学习一组融合令牌（Fusion Tokens）作为不同模态信息之间的桥梁，将多模态信息压缩到一个共享的潜在空间中。这些融合令牌充当模态特定特征之间的瓶颈，迫使模型学习跨模态的共享表征，从而提高模型的泛化能力和效率。

技术框架：Le MuMo JEPA的整体架构包括以下几个主要模块：1) 模态特定Patch Stem：用于提取每个模态（如RGB图像和LiDAR深度图）的局部特征。2) 跨模态注意力层：用于初步融合不同模态的信息。3) 剪枝融合策略：在跨模态注意力层之后，删除模态特定令牌，只保留融合令牌。4) 共享Transformer：利用融合令牌进行进一步的特征提取和表征学习。5) Sketched Isotropic Gaussian Regularization (SIGReg)：应用于联合多模态CLS嵌入，以提高模型的鲁棒性。

关键创新：Le MuMo JEPA的关键创新在于引入了可学习的融合令牌，并采用剪枝融合策略。与传统的直接拼接或注意力融合方法相比，融合令牌可以更有效地压缩和融合多模态信息，减少计算量和内存占用。剪枝融合策略进一步提高了模型的效率，同时避免了过拟合。

关键设计：在网络结构方面，Le MuMo JEPA基于Transformer架构，并针对多模态融合进行了优化。融合令牌的数量是一个关键参数，需要根据具体任务和数据集进行调整。损失函数方面，Le MuMo JEPA采用了自监督学习中常用的对比学习损失，并结合SIGReg正则化方法，以提高模型的泛化能力。具体而言，SIGReg通过在嵌入空间中引入高斯噪声，鼓励模型学习更鲁棒的表征。

🖼️ 关键图片

📊 实验亮点

Le MuMo JEPA在Waymo数据集上，相较于从头训练的多模态基线，在下游patch probes上实现了最强的性能-效率权衡，改进了CenterNet检测和密集深度估计，同时在分割方面保持竞争力。在nuScenes数据集上从头开始训练时，Le MuMo JEPA仍然是最强的模型，并且在FLIR数据集上也给出了最好的结果，尤其是在Waymo初始化的微调之后。该方法在保持最佳的整体准确性-效率平衡的同时，显著降低了计算、内存和估计的训练时间。

🎯 应用场景

Le MuMo JEPA适用于需要多模态信息融合的场景，例如自动驾驶、机器人导航、智能监控等。通过融合RGB图像、LiDAR、毫米波雷达等多种传感器数据，可以提高环境感知精度和鲁棒性，从而提升自动驾驶系统的安全性。该方法还可以应用于医学图像分析，例如融合CT和MRI图像，以提高疾病诊断的准确性。

📄 摘要（原文）

Self-supervised learning has emerged as a powerful paradigm for learning visual representations without manual annotations, yet most methods still operate on a single modality and therefore miss the complementary structure available from heterogeneous sensors. We present Le MuMo JEPA, a self-supervised framework that learns unified representations from RGB images and aligned companion modalities. In our driving experiments, the second modality is camera-aligned LiDAR depth; we also evaluate RGB-thermal training and transfer on the Teledyne FLIR ADAS benchmark. Our approach extends LeJEPA to the multi-modal setting by learning fusion tokens that act as a latent bottleneck between modality-specific patch stems inside a shared transformer. Our default model employs a pruned fusion strategy: after an initial cross-modal attention layer, modality-specific tokens are dropped, forcing cross-modal information into the shared fusion-token grid as an efficient latent bottleneck before Sketched Isotropic Gaussian Regularization (SIGReg) is applied to the joint multimodal CLS embedding. On Waymo, Le MuMo JEPA gives the strongest performance-efficiency trade-off on downstream patch probes among the from-scratch multimodal baselines, improving CenterNet detection and dense depth while remaining competitive on segmentation. Under from-scratch training on nuScenes, Le MuMo JEPA remains the strongest model, and it also gives the best FLIR results, especially after Waymo-initialized fine-tuning. It also retains the best overall accuracy-efficiency balance in our study at substantially lower compute, memory, and estimated training time.

Le MuMo JEPA: Multi-Modal Self-Supervised Representation Learning with Learnable Fusion Tokens

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理