360-GeoGS: Geometrically Consistent Feed-Forward 3D Gaussian Splatting Reconstruction for 360 Images

📄 arXiv: 2601.02102v1 📥 PDF

作者: Jiaqi Yao, Zhongmiao Yan, Jingyi Xu, Songpengcheng Xia, Yan Xiang, Ling Pei

分类: cs.CV

发布日期: 2026-01-05


💡 一句话要点

提出360-GeoGS,用于360图像的几何一致性前馈3D高斯溅射重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 3D高斯溅射 三维重建 几何一致性 深度-法线正则化 360图像 神经渲染 空间感知

📋 核心要点

  1. 传统多视图立体和神经渲染方法在三维场景重建中面临稀疏视点、低纹理区域以及实时性等挑战。
  2. 该论文提出一种前馈3D高斯溅射框架,通过深度-法线几何正则化,提升重建的几何一致性。
  3. 实验结果表明,该方法在保持高渲染质量的同时,显著提高了重建的几何一致性,适用于空间感知任务。

📝 摘要(中文)

三维场景重建是增强现实、机器人和数字孪生等空间智能应用的基础。传统的多视图立体方法在稀疏视点或低纹理区域表现不佳,而神经渲染方法虽然能够产生高质量的结果,但需要针对每个场景进行优化,并且缺乏实时效率。显式的3D高斯溅射(3DGS)能够实现高效渲染,但大多数前馈变体侧重于视觉质量,而非几何一致性,这限制了精确的表面重建和空间感知任务中的整体可靠性。本文提出了一种新的用于360图像的前馈3DGS框架,该框架能够生成几何一致的高斯基元,同时保持高渲染质量。引入了深度-法线几何正则化,将渲染的深度梯度与法线信息耦合,监督高斯旋转、尺度和位置,以提高点云和表面精度。实验结果表明,该方法在保持高渲染质量的同时,显著提高了几何一致性,为空间感知任务中的三维重建提供了一种有效的解决方案。

🔬 方法详解

问题定义:现有的前馈3D高斯溅射方法在360图像的三维重建中,虽然能实现快速渲染,但往往忽略了几何一致性,导致重建的点云和表面精度不高,限制了其在空间感知任务中的应用。这些方法主要关注视觉质量,缺乏对几何结构的约束,使得重建结果在几何上不准确。

核心思路:论文的核心思路是通过引入深度-法线几何正则化,将渲染的深度梯度与法线信息耦合,从而监督高斯基元的旋转、尺度和位置。这种方法利用深度信息和法线信息之间的关系,对高斯基元进行约束,使其更好地拟合真实的几何结构,从而提高重建的几何一致性。

技术框架:该框架主要包含以下几个阶段:1) 输入360图像;2) 使用前馈网络预测初始的高斯基元参数(位置、旋转、尺度、颜色等);3) 使用3D高斯溅射进行渲染,得到渲染的图像和深度图;4) 计算渲染深度图的梯度和法线;5) 使用深度-法线几何正则化损失函数,约束高斯基元的参数;6) 迭代优化高斯基元参数,直到收敛。

关键创新:该论文最重要的技术创新点是提出了深度-法线几何正则化方法。与现有的方法相比,该方法不仅考虑了视觉质量,还显式地约束了几何一致性。通过将深度梯度和法线信息耦合,可以更有效地监督高斯基元的参数,从而提高重建的几何精度。

关键设计:深度-法线几何正则化损失函数是关键设计之一。该损失函数的目标是使渲染的深度梯度与法线信息尽可能一致。具体来说,该损失函数可以表示为深度梯度与法线向量点积的函数,通过最小化该损失函数,可以使高斯基元更好地拟合真实的几何结构。此外,网络结构的设计也至关重要,需要选择合适的网络结构来预测初始的高斯基元参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在保持高渲染质量的同时,显著提高了重建的几何一致性。与现有方法相比,该方法在点云精度和表面精度方面均有显著提升。具体的性能数据(如Chamfer Distance、Normal Consistency等)在论文中进行了详细的对比和分析,证明了该方法的有效性。

🎯 应用场景

该研究成果可广泛应用于增强现实、机器人、数字孪生等领域。在增强现实中,可以用于快速构建高质量的三维场景模型,提升用户体验。在机器人领域,可以用于环境感知和导航。在数字孪生领域,可以用于构建精确的虚拟环境,进行模拟和分析。未来,该技术有望进一步提升三维重建的效率和精度,推动空间智能的发展。

📄 摘要(原文)

3D scene reconstruction is fundamental for spatial intelligence applications such as AR, robotics, and digital twins. Traditional multi-view stereo struggles with sparse viewpoints or low-texture regions, while neural rendering approaches, though capable of producing high-quality results, require per-scene optimization and lack real-time efficiency. Explicit 3D Gaussian Splatting (3DGS) enables efficient rendering, but most feed-forward variants focus on visual quality rather than geometric consistency, limiting accurate surface reconstruction and overall reliability in spatial perception tasks. This paper presents a novel feed-forward 3DGS framework for 360 images, capable of generating geometrically consistent Gaussian primitives while maintaining high rendering quality. A Depth-Normal geometric regularization is introduced to couple rendered depth gradients with normal information, supervising Gaussian rotation, scale, and position to improve point cloud and surface accuracy. Experimental results show that the proposed method maintains high rendering quality while significantly improving geometric consistency, providing an effective solution for 3D reconstruction in spatial perception tasks.