Pixel-Perfect Visual Geometry Estimation

📄 arXiv: 2601.05246v1 📥 PDF

作者: Gangwei Xu, Haotong Lin, Hongcheng Luo, Haiyang Sun, Bing Wang, Guang Chen, Sida Peng, Hangjun Ye, Xin Yang

分类: cs.CV

发布日期: 2026-01-08

备注: Code: https://github.com/gangweix/pixel-perfect-depth


💡 一句话要点

提出Pixel-Perfect视觉几何模型,利用像素空间生成模型实现高质量、无飞点的点云重建。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度估计 扩散模型 像素空间 视觉几何 单目深度 视频深度 语义提示 Transformer

📋 核心要点

  1. 现有几何基础模型在图像重建中存在飞点问题,并且难以保留精细的几何细节。
  2. 论文提出Pixel-Perfect Depth模型,利用像素空间扩散Transformer,结合语义信息引导扩散过程。
  3. 实验结果表明,该模型在单目和视频深度估计任务中均取得了最佳性能,并生成了更干净的点云。

📝 摘要(中文)

本文提出像素级精确的视觉几何模型,旨在从图像中恢复干净、精确的几何结构,这对于机器人和增强现实至关重要。现有几何基础模型在处理飞点和精细细节丢失方面存在严重问题。我们提出了Pixel-Perfect Depth (PPD),这是一个基于像素空间扩散Transformer (DiT)的单目深度基础模型。为了解决像素空间扩散带来的高计算复杂度,我们提出了两个关键设计:1) 语义提示DiT,它结合了视觉基础模型的语义表示来提示扩散过程,在保留全局语义的同时增强了精细的视觉细节;2) 级联DiT架构,逐步增加图像token的数量,提高效率和准确性。为了进一步将PPD扩展到视频(PPVD),我们引入了一种新的语义一致DiT,它从多视图几何基础模型中提取时间上一致的语义。然后,我们在DiT中执行参考引导的token传播,以最小的计算和内存开销保持时间一致性。我们的模型在所有生成式单目和视频深度估计模型中实现了最佳性能,并产生了比所有其他模型明显更干净的点云。

🔬 方法详解

问题定义:现有视觉几何模型在从图像中重建几何结构时,容易产生“飞点”伪影,并且难以捕捉到精细的几何细节。这限制了它们在机器人和增强现实等领域的应用,因为这些应用需要精确和干净的几何信息。

核心思路:论文的核心思路是利用像素空间中的生成模型,特别是扩散Transformer (DiT),直接生成高质量的深度图。通过在像素空间进行建模,可以更好地控制生成过程,从而减少飞点并保留细节。此外,引入语义信息来引导扩散过程,可以提高生成效率和质量。

技术框架:整体框架包括两个主要部分:Pixel-Perfect Depth (PPD) 用于单目深度估计,以及 Pixel-Perfect Video Depth (PPVD) 用于视频深度估计。PPD 基于像素空间扩散 Transformer (DiT),并引入了语义提示和级联 DiT 架构。PPVD 则在 PPD 的基础上,引入了语义一致 DiT 和参考引导的 token 传播,以保持时间一致性。

关键创新:最重要的技术创新点在于将扩散模型应用于像素空间的深度估计,并结合语义信息来引导扩散过程。与传统的深度估计方法相比,这种方法能够生成更干净、更精确的深度图。此外,级联 DiT 架构和参考引导的 token 传播也提高了模型的效率和时间一致性。

关键设计:语义提示 DiT 通过将视觉基础模型提取的语义特征融入到 DiT 的扩散过程中,从而在保留全局语义的同时增强精细的视觉细节。级联 DiT 架构通过逐步增加图像 token 的数量,在提高效率的同时保证了精度。PPVD 中的语义一致 DiT 通过从多视图几何基础模型中提取时间上一致的语义,并结合参考引导的 token 传播,实现了视频深度估计的时间一致性。

📊 实验亮点

该模型在生成式单目和视频深度估计模型中取得了最佳性能,显著优于其他模型,并产生了更干净的点云。具体性能数据和对比基线在论文中详细给出,表明该方法在深度估计的质量和效率方面均有显著提升。

🎯 应用场景

该研究成果可广泛应用于机器人、增强现实、自动驾驶等领域。高质量的深度估计对于机器人导航、场景理解、三维重建等任务至关重要。在增强现实中,精确的深度信息可以提供更逼真的虚拟物体叠加效果。在自动驾驶领域,准确的深度感知是环境理解和安全行驶的基础。

📄 摘要(原文)

Recovering clean and accurate geometry from images is essential for robotics and augmented reality. However, existing geometry foundation models still suffer severely from flying pixels and the loss of fine details. In this paper, we present pixel-perfect visual geometry models that can predict high-quality, flying-pixel-free point clouds by leveraging generative modeling in the pixel space. We first introduce Pixel-Perfect Depth (PPD), a monocular depth foundation model built upon pixel-space diffusion transformers (DiT). To address the high computational complexity associated with pixel-space diffusion, we propose two key designs: 1) Semantics-Prompted DiT, which incorporates semantic representations from vision foundation models to prompt the diffusion process, preserving global semantics while enhancing fine-grained visual details; and 2) Cascade DiT architecture that progressively increases the number of image tokens, improving both efficiency and accuracy. To further extend PPD to video (PPVD), we introduce a new Semantics-Consistent DiT, which extracts temporally consistent semantics from a multi-view geometry foundation model. We then perform reference-guided token propagation within the DiT to maintain temporal coherence with minimal computational and memory overhead. Our models achieve the best performance among all generative monocular and video depth estimation models and produce significantly cleaner point clouds than all other models.