IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation
作者: Yuqi Wu, Tianyu Hu, Wenzhao Zheng, Yuanhui Huang, Haowen Sun, Jie Zhou, Jiwen Lu
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-05-15
备注: Code: https://github.com/wzzheng/IVGT/
💡 一句话要点
IVGT:用于神经场景表示的隐式视觉几何Transformer
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经场景表示 隐式几何建模 视觉几何Transformer 多视角重建 新视角合成
📋 核心要点
- 现有方法依赖显式几何表示,如点云,存在冗余和几何连续性差的问题,难以保证重建质量。
- IVGT通过隐式建模连续几何,在规范坐标系中学习神经场景表示,支持任意3D位置的连续空间查询。
- IVGT在网格重建、新视角合成等任务上表现出色,证明了其跨场景的泛化能力和强大性能。
📝 摘要(中文)
从无位姿的多视角图像中重建连贯的3D几何和外观是计算机视觉中一个基础但具有挑战性的问题。大多数现有的视觉几何基础模型通过回归像素对齐的点图来预测显式几何,通常存在冗余和几何连续性有限的问题。我们提出了IVGT,一个隐式视觉几何Transformer,它从无位姿的多视角图像中隐式地建模连续和连贯的几何。这种公式在规范坐标系中学习连续的神经场景表示,并支持在任何3D位置进行连续空间查询,检索局部特征以使用轻量级解码器预测有符号距离函数(SDF)值和颜色。它允许直接提取连续和连贯的表面几何,从而能够从任意视点渲染RGB图像、深度图和表面法线图。我们通过多数据集联合优化以及2D监督和3D几何正则化来训练IVGT。IVGT展示了跨场景的泛化能力,并在各种任务上取得了强大的性能,包括网格和点云重建、新视角合成、深度和表面法线估计以及相机位姿估计。
🔬 方法详解
问题定义:论文旨在解决从无位姿的多视角图像中重建连贯3D几何和外观的问题。现有方法,特别是那些依赖于显式几何表示(如点云或体素)的方法,通常存在冗余、几何连续性差以及难以进行高效空间查询等问题。这些问题限制了重建质量和渲染效率。
核心思路:论文的核心思路是使用隐式神经表示来建模场景的几何结构。具体来说,它学习一个连续的函数,该函数将3D空间中的任何点映射到有符号距离值(SDF)和颜色。通过这种方式,场景的几何结构被编码在一个连续的、可微的函数中,从而避免了显式几何表示的离散化和冗余问题。
技术框架:IVGT的整体框架包括以下几个主要模块:1) 特征提取模块:从多视角图像中提取局部图像特征。2) 视觉几何Transformer:将提取的图像特征转换到规范坐标系下,并学习场景的全局几何信息。3) SDF和颜色预测模块:使用轻量级解码器,根据Transformer输出的局部特征预测给定3D点的SDF值和颜色。整个流程通过多数据集联合优化,并结合2D监督和3D几何正则化进行训练。
关键创新:IVGT的关键创新在于使用隐式神经表示和Transformer架构来建模场景的几何结构。与传统的显式几何表示方法相比,IVGT能够学习连续且连贯的几何信息,从而提高重建质量和渲染效率。此外,IVGT使用Transformer架构来学习场景的全局几何信息,从而更好地处理多视角图像之间的关系。
关键设计:IVGT的关键设计包括:1) 使用Transformer架构来学习场景的全局几何信息。2) 使用SDF作为隐式几何表示,能够方便地提取表面几何信息。3) 使用多数据集联合优化和几何正则化来提高模型的泛化能力。损失函数包括图像重建损失、深度图损失、表面法线损失以及几何正则化项。
🖼️ 关键图片
📊 实验亮点
IVGT在多个数据集上进行了评估,并在网格重建、点云重建、新视角合成、深度估计和表面法线估计等任务上取得了显著的性能提升。例如,在ShapeNet数据集上,IVGT的网格重建质量优于现有的最先进方法。此外,IVGT还展示了良好的跨场景泛化能力。
🎯 应用场景
IVGT在三维重建、虚拟现实、增强现实、机器人导航等领域具有广泛的应用前景。它可以用于创建高质量的3D模型,生成逼真的新视角图像,以及帮助机器人理解和导航周围环境。该研究的成果有助于推动计算机视觉和机器人技术的进一步发展。
📄 摘要(原文)
Reconstructing coherent 3D geometry and appearance from unposed multi-view images is a fundamental yet challenging problem in computer vision. Most existing visual geometry foundation models predict explicit geometry by regressing pixel-aligned pointmaps, often suffering from redundancy and limited geometric continuity. We propose IVGT, an Implicit Visual Geometry Transformer that implicitly models continuous and coherent geometry from pose-free multi-view images. This formulation learns a continuous neural scene representation in a canonical coordinate system and supports continuous spatial queries at any 3D positions, retrieving local features to predict signed distance (SDF) values and colors using lightweight decoders. It allows direct extraction of continuous and coherent surface geometry, enabling rendering of RGB images, depth maps, and surface normal maps from arbitrary viewpoints. We train IVGT via multi-dataset joint optimization with 2D supervision and 3D geometric regularization. IVGT demonstrates generalization across scenes and achieves strong performance on various tasks, including mesh and point cloud reconstruction, novel view synthesis, depth and surface normal estimation, and camera pose estimation.