DepthLM: Metric Depth From Vision Language Models
作者: Zhipeng Cai, Ching-Feng Yeh, Hu Xu, Zhuang Liu, Gregory Meyer, Xinjie Lei, Changsheng Zhao, Shang-Wen Li, Vikas Chandra, Yangyang Shi
分类: cs.CV
发布日期: 2025-09-29 (更新: 2025-10-01)
💡 一句话要点
DepthLM:利用视觉语言模型实现度量深度估计,无需修改架构或损失函数。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视觉语言模型 度量深度估计 文本监督微调 视觉提示 内在条件增强 3D理解 机器人视觉
📋 核心要点
- 现有视觉语言模型在3D理解方面存在不足,尤其是在度量深度估计任务上,精度远低于专用视觉模型。
- DepthLM的核心思想是通过文本监督微调,利用视觉语言模型强大的语义理解能力,实现高精度的度量深度估计。
- 实验表明,DepthLM在度量深度估计任务上超越了现有视觉语言模型2倍以上,并与专用视觉模型性能相当。
📝 摘要(中文)
视觉语言模型(VLMs)可以通过文本交互灵活地处理各种视觉任务。尽管在语义理解方面取得了成功,但包括GPT-5在内的最先进的VLMs在理解2D输入的3D信息方面仍然存在困难。另一方面,专业的纯视觉模型在度量深度估计这一关键的3D理解任务中实现了超人的精度。然而,它们需要特定于任务的架构和损失函数。这种差异促使我们思考:VLMs能否在不改变架构或损失函数的情况下达到专家级的精度?我们以像素级度量深度估计作为代表性任务,并表明答案是肯定的!令人惊讶的是,全面的分析表明,基于文本的稀疏标签监督微调足以让VLMs解锁强大的3D理解能力,不需要密集的预测头或复杂的回归/正则化损失。VLMs的瓶颈实际上在于像素参考和跨数据集相机歧义,我们通过视觉提示和内在条件增强来解决这些问题。通过更小的模型,我们的方法DepthLM的精度超过了大多数先进的VLMs 2倍以上,首次使VLMs与纯视觉模型相媲美。有趣的是,在训练过程中没有明确强制执行的情况下,用DepthLM训练的VLMs自然避免了过度平滑,与纯视觉模型相比,在边界区域的飞点要少得多。DepthLM的简单性还使单个VLM能够覆盖度量深度之外的各种3D任务。我们的代码和模型将在以下链接发布。
🔬 方法详解
问题定义:论文旨在解决视觉语言模型(VLMs)在度量深度估计任务中表现不佳的问题。现有方法通常依赖于专门设计的视觉模型,这些模型需要特定的架构和损失函数,缺乏通用性和灵活性。VLMs虽然在语义理解方面表现出色,但在3D理解方面仍有不足,无法充分利用2D图像中的深度信息。
核心思路:论文的核心思路是利用VLMs强大的语义理解能力,通过文本监督微调的方式,使其能够有效地进行度量深度估计。通过将深度估计问题转化为一个文本条件下的视觉任务,可以避免对VLMs的架构进行修改,并利用现有的预训练模型。
技术框架:DepthLM的技术框架主要包括以下几个阶段:1) 使用预训练的视觉语言模型作为基础模型。2) 利用稀疏的深度标签,通过文本监督微调的方式训练模型。3) 采用视觉提示来解决像素参考问题,即如何将文本描述与图像中的特定像素关联起来。4) 使用内在条件增强来解决跨数据集的相机歧义问题,提高模型的泛化能力。
关键创新:DepthLM的关键创新在于:1) 证明了通过简单的文本监督微调,VLMs可以达到专家级的度量深度估计精度,而无需修改模型架构或损失函数。2) 提出了视觉提示和内在条件增强两种方法,有效地解决了像素参考和跨数据集相机歧义问题。3) 发现VLMs在训练过程中能够自然地避免过度平滑,减少边界区域的飞点。
关键设计:DepthLM的关键设计包括:1) 使用稀疏深度标签进行监督微调,避免了对密集深度图的依赖。2) 设计了合适的文本提示,引导模型关注图像中的深度信息。3) 采用了内在相机参数作为条件,进行数据增强,提高模型的鲁棒性。4) 没有使用复杂的回归损失或正则化项,而是直接利用交叉熵损失进行训练。
🖼️ 关键图片
📊 实验亮点
DepthLM在度量深度估计任务上取得了显著的成果,精度超过了现有先进的视觉语言模型2倍以上,并且首次使视觉语言模型与纯视觉模型在性能上相媲美。此外,DepthLM在训练过程中能够自然地避免过度平滑,减少边界区域的飞点,提高了深度估计的质量。
🎯 应用场景
DepthLM在机器人导航、自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境,实现更精确的定位和导航。在自动驾驶领域,可以提高车辆对障碍物的感知能力,增强驾驶安全性。在VR/AR领域,可以提供更逼真的3D场景,提升用户体验。
📄 摘要(原文)
Vision language models (VLMs) can flexibly address various vision tasks through text interactions. Although successful in semantic understanding, state-of-the-art VLMs including GPT-5 still struggle in understanding 3D from 2D inputs. On the other hand, expert pure vision models achieve super-human accuracy in metric depth estimation, a key 3D understanding task. However, they require task-specific architectures and losses. Such difference motivates us to ask: Can VLMs reach expert-level accuracy without architecture or loss change? We take per-pixel metric depth estimation as the representative task and show that the answer is yes! Surprisingly, comprehensive analysis shows that text-based supervised-finetuning with sparse labels is sufficient for VLMs to unlock strong 3D understanding, no dense prediction head or complex regression/regularization loss is needed. The bottleneck for VLMs lies actually in pixel reference and cross-dataset camera ambiguity, which we address through visual prompting and intrinsic-conditioned augmentation. With much smaller models, our method DepthLM surpasses the accuracy of most advanced VLMs by over 2x, making VLMs for the first time comparable with pure vision models. Interestingly, without explicit enforcement during training, VLMs trained with DepthLM naturally avoids over-smoothing, having much fewer flying points at boundary regions than pure vision models. The simplicity of DepthLM also enables a single VLM to cover various 3D tasks beyond metric depth. Our code and model will be released at the link below.