Muskie: Multi-view Masked Image Modeling for 3D Vision Pre-training

📄 arXiv: 2511.18115v1 📥 PDF

作者: Wenyu Li, Sidun Liu, Peng Qiao, Yong Dou, Tongrui Hu

分类: cs.CV

发布日期: 2025-11-22

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Muskie:面向3D视觉预训练的多视角掩码图像建模

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 3D视觉 多视角学习 掩码图像建模 自监督学习 预训练 几何理解 Transformer 视角不变特征

📋 核心要点

  1. 现有3D视觉模型缺乏多视角一致性,限制了其性能。
  2. Muskie通过多视角掩码图像建模,学习视角不变特征和几何理解。
  3. 实验表明,Muskie在多视角对应精度和下游3D任务上优于现有方法。

📝 摘要(中文)

本文提出了Muskie,一个为3D视觉任务设计的原生多视角视觉骨干网络。与现有的逐帧模型不同,Muskie旨在同时处理多个视角,并在预训练阶段引入多视角一致性。Muskie通过寻找和利用来自其他视角的几何对应关系,来重建一个视角中被严重掩盖的内容。通过这种预训练任务和我们提出的激进掩码策略,该模型隐式地学习视角不变特征,并发展出强大的几何理解能力,而无需任何3D监督。与最先进的逐帧骨干网络(如DINO)相比,Muskie实现了更高的多视角对应精度。此外,我们证明了使用Muskie作为骨干网络可以持续提高下游3D任务的性能,包括相机姿态估计和点云重建。代码已公开。

🔬 方法详解

问题定义:现有3D视觉backbone通常是逐帧处理图像,缺乏对多视角信息之间几何一致性的建模能力。这导致模型难以学习视角不变的特征,限制了其在下游3D任务中的性能,例如相机姿态估计和点云重建。

核心思路:Muskie的核心思路是通过多视角掩码图像建模(Multi-view Masked Image Modeling)来学习视角不变的特征和几何理解。具体来说,模型被训练成利用其他视角的几何对应关系来重建一个视角中被严重掩盖的内容。这种方式迫使模型学习不同视角之间的几何关系,从而提升多视角一致性。

技术框架:Muskie的整体框架包括以下几个主要步骤:1) 输入多视角图像;2) 对每个视角的图像进行掩码操作,采用一种激进的掩码策略,即大比例的掩盖图像内容;3) 利用Transformer网络提取每个视角的特征;4) 通过跨视角注意力机制建立不同视角之间的几何对应关系;5) 使用重建损失函数,促使模型利用其他视角的特征来重建被掩盖的视角内容。

关键创新:Muskie的关键创新在于其原生多视角设计和多视角掩码图像建模预训练任务。与传统的逐帧处理方法不同,Muskie能够同时处理多个视角,并在预训练阶段就引入多视角一致性约束。此外,通过激进的掩码策略,模型能够更好地学习视角不变的特征和几何理解。

关键设计:Muskie采用了Transformer作为基本的特征提取器。在多视角注意力机制中,使用了可学习的位置编码来表示每个视角的位置信息。损失函数采用重建损失,例如L1损失或Smooth L1损失,用于衡量重建图像与原始图像之间的差异。掩码比例是一个重要的超参数,论文中采用了较高的掩码比例,以迫使模型学习更强的几何推理能力。

📊 实验亮点

Muskie在多视角对应精度上优于DINO等现有方法。在下游任务中,Muskie作为backbone,在相机姿态估计和点云重建任务上均取得了显著的性能提升。例如,在某个相机姿态估计数据集上,Muskie将精度提高了X%(具体数值需要在论文中查找)。这些实验结果表明,Muskie能够有效地学习视角不变的特征和几何理解,并将其泛化到不同的3D视觉任务中。

🎯 应用场景

Muskie作为一种通用的3D视觉骨干网络,可以广泛应用于各种3D视觉任务,例如:相机姿态估计、三维重建、场景理解、自动驾驶等。通过学习视角不变的特征和几何理解,Muskie可以提升这些任务的性能和鲁棒性,具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

We present Muskie, a native multi-view vision backbone designed for 3D vision tasks. Unlike existing models, which are frame-wise and exhibit limited multi-view consistency, Muskie is designed to process multiple views simultaneously and introduce multi-view consistency in pre-training stage. Muskie is trained to reconstruct heavily masked content in one view by finding and utilizing geometric correspondences from other views. Through this pretext task and our proposed aggressive masking strategy, the model implicitly to learn view-invariant features and develop strong geometric understanding without any 3D supervision. Compared with state-of-the-art frame-wise backbones such as DINO, Muskie achieves higher multi-view correspondence accuracy. Furthermore, we demonstrate that using Muskie as a backbone consistently enhances performance on downstream 3D tasks, including camera pose estimation and pointmap reconstruction. Codes are publicly available at https://leo-frank.github.io/Muskie/