From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs

作者: Ang Cao, Sergio Arnaud, Oleksandr Maksymets, Jianing Yang, Ayush Jain, Sriram Yenamandra, Ada Martin, Vincent-Pierre Berges, Paul McVay, Ruslan Partsey, Aravind Rajeswaran, Franziska Meier, Justin Johnson, Jeong Joon Park, Alexander Sax

分类: cs.CV

发布日期: 2025-02-27 (更新: 2025-06-09)

备注: Project page: https://liftgs.github.io

💡 一句话要点

LIFT-GS：利用2D视觉语言模型蒸馏实现大规模3D视觉语言理解

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D视觉语言理解 可微渲染 知识蒸馏 2D视觉语言模型 开放词汇实例分割

📋 核心要点

3D视觉语言理解受限于数据规模，现有方法难以充分利用大规模2D视觉语言模型的知识。
LIFT-GS通过可微渲染将3D场景投影到2D视图，利用2D视觉语言模型的监督信号进行知识蒸馏。
实验表明，LIFT-GS在开放词汇实例分割和指代 grounding 任务上显著提升了性能，并展现出良好的数据扩展性。

📝 摘要（中文）

3D视觉语言理解面临着严重的数据瓶颈：2D模型可以在数十亿图像上训练，而3D模型只能访问数千个带标签的场景，这六个数量级的差距严重限制了性能。我们引入了LIFT-GS，这是一种实用的蒸馏技术，通过使用可微渲染来桥接3D和2D监督，从而克服了这一限制。LIFT-GS从点云预测3D高斯表示，并使用它们将预测的语言条件3D掩码渲染为2D视图，从而实现来自2D基础模型（SAM、CLIP、LLaMA）的监督，而无需任何3D注释。这种渲染监督公式能够对完整的编码器-解码器架构进行端到端训练，并且本质上是模型无关的。LIFT-GS在开放词汇实例分割上实现了最先进的结果，mAP为25.7%（之前的SOTA为20.2%），并且在指代 grounding 任务上实现了10-30%的持续改进。值得注意的是，预训练有效地将微调数据集乘以2倍，证明了强大的缩放特性，这表明3D VLG目前在严重的数据稀缺状态下运行。

🔬 方法详解

问题定义：3D视觉语言理解任务面临数据稀缺的挑战。现有的3D模型训练数据量远小于2D模型，导致性能受限，难以有效利用大规模2D视觉语言模型的知识。

核心思路：LIFT-GS的核心思路是通过可微渲染将3D场景投影到2D视图，从而利用预训练的2D视觉语言模型进行监督。这种方法无需额外的3D标注，即可将2D模型的知识迁移到3D模型。

技术框架：LIFT-GS包含以下主要模块：1) 3D高斯表示预测：从点云预测3D高斯表示。2) 可微渲染：将3D高斯表示渲染成2D图像。3) 2D视觉语言模型监督：利用2D视觉语言模型（如SAM, CLIP, LLaMA）对渲染的2D图像进行监督，生成损失函数。4) 端到端训练：通过反向传播优化3D模型参数。

关键创新：LIFT-GS的关键创新在于使用可微渲染桥接了3D和2D监督，从而能够利用大规模2D视觉语言模型的知识，而无需额外的3D标注。这与传统的3D视觉语言理解方法依赖于有限的3D标注数据形成了鲜明对比。

关键设计：LIFT-GS使用3D高斯表示来表示3D场景，这种表示方式具有可微性，便于进行渲染。损失函数的设计至关重要，需要根据使用的2D视觉语言模型进行调整。例如，可以使用CLIP的图像-文本对比损失，或者使用SAM的分割损失。

🖼️ 关键图片

📊 实验亮点

LIFT-GS在开放词汇实例分割任务上取得了显著的性能提升，mAP达到25.7%，超过了之前的SOTA（20.2%）。在指代 grounding 任务上，LIFT-GS也实现了10-30%的持续改进。实验还表明，LIFT-GS具有良好的数据扩展性，预训练可以有效地将微调数据集扩大2倍。

🎯 应用场景

LIFT-GS在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以帮助机器人理解自然语言指令，从而更好地与环境交互。此外，LIFT-GS还可以用于生成更逼真的3D场景，提升虚拟现实和增强现实的用户体验。

📄 摘要（原文）

3D vision-language grounding faces a fundamental data bottleneck: while 2D models train on billions of images, 3D models have access to only thousands of labeled scenes--a six-order-of-magnitude gap that severely limits performance. We introduce $\textbf{LIFT-GS}$, a practical distillation technique that overcomes this limitation by using differentiable rendering to bridge 3D and 2D supervision. LIFT-GS predicts 3D Gaussian representations from point clouds and uses them to render predicted language-conditioned 3D masks into 2D views, enabling supervision from 2D foundation models (SAM, CLIP, LLaMA) without requiring any 3D annotations. This render-supervised formulation enables end-to-end training of complete encoder-decoder architectures and is inherently model-agnostic. LIFT-GS achieves state-of-the-art results with $25.7\%$ mAP on open-vocabulary instance segmentation (vs. $20.2\%$ prior SOTA) and consistent $10-30\%$ improvements on referential grounding tasks. Remarkably, pretraining effectively multiplies fine-tuning datasets by 2X, demonstrating strong scaling properties that suggest 3D VLG currently operates in a severely data-scarce regime. Project page: https://liftgs.github.io

From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理