LUDVIG: Learning-Free Uplifting of 2D Visual Features to Gaussian Splatting Scenes
作者: Juliette Marrie, Romain Menegaux, Michael Arbel, Diane Larlus, Julien Mairal
分类: cs.CV
发布日期: 2024-10-18 (更新: 2025-07-27)
备注: Published at ICCV 2025. Project page: https://juliettemarrie.github.io/ludvig
💡 一句话要点
LUDVIG:免学习地将2D视觉特征提升到高斯溅射场景
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D场景理解 高斯溅射 视觉基础模型 图扩散 免学习 特征提升 语义分割
📋 核心要点
- 现有方法依赖重建损失,计算成本高昂,限制了视觉基础模型在3D场景理解中的应用。
- LUDVIG通过特征聚合和图扩散,将2D特征高效提升到3D高斯溅射场景,无需训练即可利用预训练视觉模型。
- 实验表明,LUDVIG在分割任务上可与SOTA方法媲美,且速度更快,并能有效应用于开放词汇分割。
📝 摘要(中文)
本文旨在将DINO、SAM和CLIP等视觉基础模型的能力扩展到3D任务。具体而言,我们提出了一种新颖的方法,将2D图像特征提升到3D场景的高斯溅射表示中。与依赖于最小化重建损失的传统方法不同,我们的方法采用了一种更简单、更高效的特征聚合技术,并辅以图扩散机制。图扩散通过利用3D几何和DINOv2诱导的成对相似性来细化3D特征,例如粗略的分割掩码。我们的方法在多个下游任务上实现了与最先进技术相当的性能,同时显著提高了速度。值得注意的是,我们仅使用通用的DINOv2特征就获得了具有竞争力的分割结果,尽管DINOv2不像SAM那样在数百万个带注释的分割掩码上进行训练。当应用于CLIP特征时,我们的方法在开放词汇对象分割任务中表现出强大的性能,突出了我们方法的多功能性。
🔬 方法详解
问题定义:现有方法在将2D视觉特征应用于3D场景理解时,通常依赖于最小化重建损失,这导致计算成本高昂,效率低下。此外,这些方法可能难以充分利用预训练的视觉基础模型(如DINO、SAM和CLIP)的强大特征提取能力,尤其是在没有大量3D标注数据的情况下。因此,需要一种更高效、更通用的方法,能够将2D特征提升到3D场景中,并充分利用预训练视觉模型的知识。
核心思路:LUDVIG的核心思路是通过一种免学习的特征聚合和图扩散机制,将2D图像特征有效地提升到3D高斯溅射场景中。该方法避免了昂贵的重建损失计算,而是利用预训练视觉模型提取的特征,并通过图扩散来细化这些特征,从而实现高效的3D场景理解。
技术框架:LUDVIG的整体框架包括以下几个主要阶段:1) 使用预训练的2D视觉模型(如DINOv2、CLIP)提取图像特征;2) 将2D特征投影到3D高斯溅射场景中,形成初始的3D特征;3) 构建基于3D几何和特征相似性的图结构;4) 使用图扩散算法在图上迭代传播和细化3D特征;5) 将细化后的3D特征用于下游任务,如语义分割或开放词汇对象分割。
关键创新:LUDVIG最重要的技术创新点在于其免学习的特征提升和图扩散机制。与需要大量训练数据的传统方法不同,LUDVIG可以直接利用预训练的2D视觉模型,并通过图扩散来细化3D特征,无需额外的训练。这种方法不仅提高了效率,还增强了模型的泛化能力。
关键设计:LUDVIG的关键设计包括:1) 使用DINOv2提取图像特征,利用其强大的语义表示能力;2) 构建基于3D高斯溅射表示的图结构,利用3D几何信息;3) 使用图卷积网络(GCN)或类似的图扩散算法来传播和细化特征;4) 通过调整图的连接方式和扩散参数来控制特征传播的范围和强度。
🖼️ 关键图片
📊 实验亮点
LUDVIG在多个下游任务上取得了与最先进技术相当的性能,同时显著提高了速度。例如,在语义分割任务中,LUDVIG仅使用通用的DINOv2特征就获得了具有竞争力的结果,而无需像SAM那样在数百万个带注释的分割掩码上进行训练。此外,LUDVIG在开放词汇对象分割任务中也表现出强大的性能,证明了其通用性和有效性。
🎯 应用场景
LUDVIG具有广泛的应用前景,包括机器人导航、自动驾驶、增强现实和虚拟现实等领域。它可以用于场景理解、目标检测、语义分割和三维重建等任务。通过利用预训练的视觉基础模型,LUDVIG可以快速适应新的场景和任务,降低了开发成本和时间。
📄 摘要(原文)
We address the problem of extending the capabilities of vision foundation models such as DINO, SAM, and CLIP, to 3D tasks. Specifically, we introduce a novel method to uplift 2D image features into Gaussian Splatting representations of 3D scenes. Unlike traditional approaches that rely on minimizing a reconstruction loss, our method employs a simpler and more efficient feature aggregation technique, augmented by a graph diffusion mechanism. Graph diffusion refines 3D features, such as coarse segmentation masks, by leveraging 3D geometry and pairwise similarities induced by DINOv2. Our approach achieves performance comparable to the state of the art on multiple downstream tasks while delivering significant speed-ups. Notably, we obtain competitive segmentation results using only generic DINOv2 features, despite DINOv2 not being trained on millions of annotated segmentation masks like SAM. When applied to CLIP features, our method demonstrates strong performance in open-vocabulary object segmentation tasks, highlighting the versatility of our approach.