From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs
作者: Ang Cao, Sergio Arnaud, Oleksandr Maksymets, Jianing Yang, Ayush Jain, Sriram Yenamandra, Ada Martin, Vincent-Pierre Berges, Paul McVay, Ruslan Partsey, Aravind Rajeswaran, Franziska Meier, Justin Johnson, Jeong Joon Park, Alexander Sax
分类: cs.CV
发布日期: 2025-02-27 (更新: 2025-06-09)
备注: Project page: https://liftgs.github.io
💡 一句话要点
LIFT-GS:利用2D视觉语言模型蒸馏实现大规模3D视觉语言理解
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D视觉语言理解 可微渲染 知识蒸馏 2D视觉语言模型 开放词汇实例分割
📋 核心要点
- 3D视觉语言理解受限于数据规模,现有方法难以充分利用大规模2D视觉语言模型的知识。
- LIFT-GS通过可微渲染将3D场景投影到2D视图,利用2D视觉语言模型的监督信号进行知识蒸馏。
- 实验表明,LIFT-GS在开放词汇实例分割和指代 grounding 任务上显著提升了性能,并展现出良好的数据扩展性。
📝 摘要(中文)
3D视觉语言理解面临着严重的数据瓶颈:2D模型可以在数十亿图像上训练,而3D模型只能访问数千个带标签的场景,这六个数量级的差距严重限制了性能。我们引入了LIFT-GS,这是一种实用的蒸馏技术,通过使用可微渲染来桥接3D和2D监督,从而克服了这一限制。LIFT-GS从点云预测3D高斯表示,并使用它们将预测的语言条件3D掩码渲染为2D视图,从而实现来自2D基础模型(SAM、CLIP、LLaMA)的监督,而无需任何3D注释。这种渲染监督公式能够对完整的编码器-解码器架构进行端到端训练,并且本质上是模型无关的。LIFT-GS在开放词汇实例分割上实现了最先进的结果,mAP为25.7%(之前的SOTA为20.2%),并且在指代 grounding 任务上实现了10-30%的持续改进。值得注意的是,预训练有效地将微调数据集乘以2倍,证明了强大的缩放特性,这表明3D VLG目前在严重的数据稀缺状态下运行。
🔬 方法详解
问题定义:3D视觉语言理解任务面临数据稀缺的挑战。现有的3D模型训练数据量远小于2D模型,导致性能受限,难以有效利用大规模2D视觉语言模型的知识。
核心思路:LIFT-GS的核心思路是通过可微渲染将3D场景投影到2D视图,从而利用预训练的2D视觉语言模型进行监督。这种方法无需额外的3D标注,即可将2D模型的知识迁移到3D模型。
技术框架:LIFT-GS包含以下主要模块:1) 3D高斯表示预测:从点云预测3D高斯表示。2) 可微渲染:将3D高斯表示渲染成2D图像。3) 2D视觉语言模型监督:利用2D视觉语言模型(如SAM, CLIP, LLaMA)对渲染的2D图像进行监督,生成损失函数。4) 端到端训练:通过反向传播优化3D模型参数。
关键创新:LIFT-GS的关键创新在于使用可微渲染桥接了3D和2D监督,从而能够利用大规模2D视觉语言模型的知识,而无需额外的3D标注。这与传统的3D视觉语言理解方法依赖于有限的3D标注数据形成了鲜明对比。
关键设计:LIFT-GS使用3D高斯表示来表示3D场景,这种表示方式具有可微性,便于进行渲染。损失函数的设计至关重要,需要根据使用的2D视觉语言模型进行调整。例如,可以使用CLIP的图像-文本对比损失,或者使用SAM的分割损失。
🖼️ 关键图片
📊 实验亮点
LIFT-GS在开放词汇实例分割任务上取得了显著的性能提升,mAP达到25.7%,超过了之前的SOTA(20.2%)。在指代 grounding 任务上,LIFT-GS也实现了10-30%的持续改进。实验还表明,LIFT-GS具有良好的数据扩展性,预训练可以有效地将微调数据集扩大2倍。
🎯 应用场景
LIFT-GS在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以帮助机器人理解自然语言指令,从而更好地与环境交互。此外,LIFT-GS还可以用于生成更逼真的3D场景,提升虚拟现实和增强现实的用户体验。
📄 摘要(原文)
3D vision-language grounding faces a fundamental data bottleneck: while 2D models train on billions of images, 3D models have access to only thousands of labeled scenes--a six-order-of-magnitude gap that severely limits performance. We introduce $\textbf{LIFT-GS}$, a practical distillation technique that overcomes this limitation by using differentiable rendering to bridge 3D and 2D supervision. LIFT-GS predicts 3D Gaussian representations from point clouds and uses them to render predicted language-conditioned 3D masks into 2D views, enabling supervision from 2D foundation models (SAM, CLIP, LLaMA) without requiring any 3D annotations. This render-supervised formulation enables end-to-end training of complete encoder-decoder architectures and is inherently model-agnostic. LIFT-GS achieves state-of-the-art results with $25.7\%$ mAP on open-vocabulary instance segmentation (vs. $20.2\%$ prior SOTA) and consistent $10-30\%$ improvements on referential grounding tasks. Remarkably, pretraining effectively multiplies fine-tuning datasets by 2X, demonstrating strong scaling properties that suggest 3D VLG currently operates in a severely data-scarce regime. Project page: https://liftgs.github.io