SurGe: Improved Surface Geometry in Point Maps

📄 arXiv: 2605.31577v1 📥 PDF

作者: Karim Knaebel, Gonzalo Martin Garcia, Christian Schmidt, Ilya Fradlin, Lucas Nunes, Daan de Geus, Bastian Leibe

分类: cs.CV

发布日期: 2026-05-29

备注: Project page at https://vision.rwth-aachen.de/surge


💡 一句话要点

SurGe通过梯度匹配损失和邻域注意力机制,提升点云地图表面几何精度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D重建 点云地图 表面几何 深度估计 邻域注意力

📋 核心要点

  1. 现有前馈3D重建方法在局部表面几何精度上存在不足,常用评估指标难以有效反映这些误差。
  2. 论文提出点梯度匹配损失和邻域注意力解码器(NAD)来提升局部表面几何精度。
  3. 实验表明,SurGe模型在多个零样本单目几何基准测试中,全局和局部几何精度均得到提升。

📝 摘要(中文)

最近的前馈3D重建方法在预测点云地图和估计全局3D几何方面表现出色。然而,它们的预测仍然存在不准确的局部表面几何,这在定性上清晰可见,但在常用指标中仅有微弱体现。为了在评估中更明确地体现这些误差,我们引入了一种点云地图法线度量,用于评估相邻3D预测所引起的局部表面方向。为了减少这些误差,我们提出了两个互补的组件:一个点梯度匹配损失,用于监督深度归一化的3D有限差分;以及一个邻域注意力解码器(NAD),它逐步上采样特征,并使用邻域注意力进行局部特征混合。在八个零样本单目几何基准测试中,我们的模型SurGe在全局点云地图AbsRel方面取得了最佳平均排名,并持续改进了局部点云地图和点云地图法线的评估。

🔬 方法详解

问题定义:现有基于点云地图的3D重建方法,虽然在全局几何结构上表现良好,但在局部表面几何的精度上存在不足。这种不足之处难以通过常用的评估指标(如均方根误差)有效衡量,导致模型优化方向不明确。因此,需要更有效的评估指标和优化方法来提升局部表面几何的重建质量。

核心思路:论文的核心思路是通过引入新的评估指标和优化策略,更直接地监督和提升局部表面几何的精度。具体来说,通过点云地图法线度量来更准确地评估局部表面方向的误差,并利用点梯度匹配损失来约束深度归一化的3D有限差分,从而优化局部几何结构。同时,使用邻域注意力解码器(NAD)来更好地融合局部特征,提升重建质量。

技术框架:SurGe模型的整体框架包括一个编码器-解码器结构。编码器负责提取图像特征,解码器则负责从提取的特征中重建点云地图。关键模块包括:1) 点梯度匹配损失:用于监督深度归一化的3D有限差分,促使模型学习更准确的局部表面几何。2) 邻域注意力解码器(NAD):通过逐步上采样特征和使用邻域注意力机制,更好地融合局部特征,提升重建质量。

关键创新:论文的关键创新在于:1) 提出了点云地图法线度量,能够更有效地评估局部表面几何的精度。2) 引入了点梯度匹配损失,能够更直接地监督局部表面几何的重建。3) 设计了邻域注意力解码器(NAD),能够更好地融合局部特征,提升重建质量。与现有方法相比,SurGe模型能够更有效地提升局部表面几何的精度。

关键设计:点梯度匹配损失的关键在于对深度进行归一化,以消除深度尺度对梯度计算的影响。邻域注意力解码器(NAD)的关键在于使用邻域注意力机制来融合局部特征,从而更好地捕捉局部几何信息。具体的网络结构和参数设置在论文中有详细描述,例如,NAD的注意力头数、特征维度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SurGe模型在八个零样本单目几何基准测试中取得了显著的性能提升。在全局点云地图AbsRel指标上,SurGe取得了最佳平均排名。更重要的是,SurGe在局部点云地图和点云地图法线评估指标上均取得了持续的改进,表明其在局部表面几何精度上具有显著优势。这些实验结果验证了论文提出的点梯度匹配损失和邻域注意力解码器(NAD)的有效性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、增强现实等领域。高精度的3D重建能够帮助机器人更好地理解周围环境,从而实现更安全、更可靠的导航和操作。在自动驾驶领域,精确的3D环境感知是实现高级驾驶辅助系统和自动驾驶的关键。在增强现实领域,高质量的3D模型能够提供更逼真的用户体验。

📄 摘要(原文)

Recent feedforward 3D reconstruction methods predict point maps and estimate global 3D geometry remarkably well. However, their predictions still exhibit inaccurate local surface geometry, which is clearly visible qualitatively but only weakly reflected in common metrics. To make these errors more explicit in evaluation, we introduce a point map normal metric that evaluates the local surface orientation induced by neighboring 3D predictions. To reduce these errors, we propose two complementary components: a point gradient matching loss that supervises depth-normalized 3D finite differences, and a Neighborhood Attention Decoder (NAD) that progressively upsamples features and uses Neighborhood Attention for local feature mixing. Across eight zero-shot monocular geometry benchmarks, our model, SurGe, achieves the best average rank for global point map AbsRel and consistently improves local point map and point map normal evaluations.