G3T Up! Gravity Aligned Coordinate Frames Simplify Pointmap Processing

📄 arXiv: 2605.27372v1 📥 PDF

作者: Bharath Raj Nagoor Kani, Noah Snavely

分类: cs.CV

发布日期: 2026-05-26

备注: Project Page: https://g3t-paper.github.io/


💡 一句话要点

G3T:利用重力对齐坐标系简化点云地图处理,提升三维重建精度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维重建 点云地图 重力对齐 坐标系变换 深度学习

📋 核心要点

  1. 现有基于相机坐标系的3D重建方法在处理多视角数据时,需要估计复杂的相机姿态变换,增加了计算负担和误差累积。
  2. 论文提出在重力对齐坐标系下进行点云地图预测,利用场景中常见的垂直结构信息,减少了视角间的旋转自由度。
  3. 通过引入G3T模型和G3T-Long重建流程,实验表明该方法能够显著提高三维重建的精度和效率。

📝 摘要(中文)

现有的前馈3D重建方法,如VGGT,通常在相机坐标系中预测像素对齐的点云地图。然而,这种坐标系选择并非总是最优的。本文提出在与重力对齐的坐标系中预测点云地图,利用现实场景中常见的结构性线索。与相机坐标系不同,重力对齐坐标系在不同视角间共享一个垂直轴,从而减少了点云地图之间关联所需的旋转自由度。为此,本文引入了重力引导几何变换器(G3T),该模型基于现有模型,并在重力对齐的3D数据上进行了微调。G3T能够生成高度精确的重力感知预测,包括垂直点云地图和相机到重力的姿态。此外,本文还提出了G3T-Long,这是一个基于子地图的增量3D重建流程,它利用垂直坐标系提供的减少的旋转自由度,显著提高了重建精度。

🔬 方法详解

问题定义:现有基于前馈神经网络的3D重建方法,例如VGGT,通常在相机坐标系下预测点云地图。这种方法的痛点在于,当处理来自不同视角的图像时,需要精确估计相机之间的相对姿态,这本身就是一个复杂且容易出错的过程。尤其是在视角变化较大时,姿态估计的误差会严重影响重建质量。

核心思路:本文的核心思路是利用场景中普遍存在的重力方向作为先验知识,将点云地图转换到与重力对齐的坐标系中。由于不同视角的图像都共享一个垂直方向,因此可以大大减少需要估计的旋转自由度,从而简化了点云地图的对齐过程,提高了重建的鲁棒性和精度。

技术框架:整体框架包含两个主要部分:1) G3T模型:该模型基于现有的3D重建模型进行微调,用于预测重力对齐的点云地图和相机到重力坐标系的姿态变换。2) G3T-Long重建流程:这是一个基于子地图的增量式重建流程,它利用G3T模型预测的结果,逐步构建全局的三维模型。该流程将场景划分为多个子地图,并使用重力对齐的坐标系将它们对齐和融合。

关键创新:最重要的技术创新点在于将重力方向作为先验知识引入到3D重建过程中。通过预测重力对齐的点云地图,减少了视角间的旋转自由度,从而简化了点云地图的对齐过程。这与传统的基于相机坐标系的重建方法有着本质的区别,后者需要估计完整的6自由度相机姿态。

关键设计:G3T模型通过在重力对齐的3D数据集上对现有模型进行微调来实现。损失函数包括点云重建损失、姿态估计损失和重力方向对齐损失。G3T-Long流程的关键在于子地图的划分策略和融合算法,以及如何有效地利用G3T模型预测的重力对齐信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,G3T模型能够生成高度精确的重力感知预测,包括垂直点云地图和相机到重力的姿态。G3T-Long重建流程在多个数据集上取得了显著的性能提升,尤其是在视角变化较大的场景中。与现有的方法相比,G3T-Long能够显著提高重建精度,并减少计算时间。

🎯 应用场景

该研究成果可应用于机器人导航、增强现实、虚拟现实、三维地图构建等领域。通过提高三维重建的精度和效率,可以为这些应用提供更可靠的环境感知能力。例如,在机器人导航中,可以利用该方法构建更精确的三维地图,从而提高机器人的定位和路径规划能力。在AR/VR中,可以提供更逼真的场景重建效果,提升用户体验。

📄 摘要(原文)

Modern feed-forward 3D reconstruction methods like VGGT predict pixel-aligned pointmaps in camera-centric coordinate frames. However, this choice of coordinate frame is not always optimal. We propose instead to predict pointmaps in upright, gravity-aligned frames that exploit strong structural cues present in many real-world scenes. Unlike camera-centric frames, gravity-aligned frames share a common vertical axis across viewpoints, reducing the rotational degrees of freedom needed to relate pointmaps to one another. To this end, we introduce the Gravity Grounded Geometry Transformer (G3T), fine-tuned from existing models on gravity-aligned 3D data. G3T produces highly accurate gravity-aware predictions, including upright pointmaps and camera-to-gravity poses. We further introduce G3T-Long, a submap-based incremental 3D reconstruction pipeline that leverages the reduced rotational degrees of freedom afforded by upright frames to achieve significantly improved reconstruction accuracy.