SaLon3R: Structure-aware Long-term Generalizable 3D Reconstruction from Unposed Images

📄 arXiv: 2510.15072v1 📥 PDF

作者: Jiaxin Guo, Tongfan Guan, Wenzhen Dong, Wenzhao Zheng, Wenting Wang, Yue Wang, Yeung Yam, Yun-Hui Liu

分类: cs.CV

发布日期: 2025-10-16

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SaLon3R:结构感知的长期通用3D重建,解决冗余和几何不一致问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D重建 高斯溅射 通用重建 长期序列 结构感知

📋 核心要点

  1. 现有通用3D高斯溅射方法在长时序视频重建中存在冗余高斯和几何不一致问题,限制了效率和重建质量。
  2. SaLon3R通过引入紧凑的锚点基元和显著性感知高斯量化,有效去除冗余,并利用3D Point Transformer解决几何不一致问题。
  3. 实验结果表明,SaLon3R在novel view synthesis和深度估计方面均优于现有方法,且效率更高,泛化能力更强。

📝 摘要(中文)

本文提出SaLon3R,一种结构感知的长期3D高斯溅射(3DGS)重建框架,旨在解决现有方法在处理长时序视频序列时存在的冗余和几何不一致问题。SaLon3R是首个能够以超过10 FPS的速度重建超过50个视角的在线通用GS方法,并能去除50%到90%的冗余。该方法引入紧凑的锚点基元,通过可微的显著性感知高斯量化消除冗余,并结合3D Point Transformer来细化锚点属性和显著性,从而解决跨帧的几何和光度不一致性。该方法首先利用3D重建骨干网络预测密集的逐像素高斯和编码区域几何复杂度的显著性图。然后,通过优先考虑高复杂度区域,将冗余高斯压缩为紧凑的锚点。3D Point Transformer从训练数据中学习3D空间中的空间结构先验,以细化锚点属性和显著性,从而实现区域自适应高斯解码以保证几何保真度。无需已知的相机参数或测试时优化,该方法能够有效地解决伪影并修剪冗余的3DGS。在多个数据集上的实验表明,该方法在novel view synthesis和深度估计方面均表现出最先进的性能,展示了长期通用3D重建的卓越效率、鲁棒性和泛化能力。

🔬 方法详解

问题定义:现有基于3D高斯溅射的通用三维重建方法,在处理长时序视频序列时,由于每个视角都预测高斯分布,并将所有视角的高斯分布组合成场景表示,导致大量冗余和几何不一致性。这降低了重建效率,并影响了重建质量,尤其是在视角数量较多时,问题更加突出。

核心思路:SaLon3R的核心思路是通过引入紧凑的锚点基元来消除冗余,并利用3D Point Transformer来学习空间结构先验,从而解决跨帧的几何和光度不一致性。通过显著性感知的高斯量化,将冗余的高斯分布压缩到少量的锚点上,从而减少了计算量和内存占用。

技术框架:SaLon3R的整体框架包括以下几个主要阶段:1) 3D重建骨干网络预测密集的逐像素高斯分布和显著性图;2) 通过显著性感知的高斯量化,将冗余高斯压缩为紧凑的锚点;3) 3D Point Transformer学习空间结构先验,并细化锚点属性和显著性;4) 区域自适应高斯解码,用于生成最终的3D场景表示。

关键创新:SaLon3R的关键创新在于:1) 引入了紧凑的锚点基元,有效减少了冗余;2) 提出了可微的显著性感知高斯量化方法,能够根据区域几何复杂度自适应地压缩高斯分布;3) 利用3D Point Transformer学习空间结构先验,从而提高了几何一致性。与现有方法相比,SaLon3R能够在不进行测试时优化的情况下,有效地解决伪影并修剪冗余的3DGS。

关键设计:在显著性感知高斯量化中,显著性图用于指导锚点的选择,优先选择高复杂度区域的锚点。3D Point Transformer的网络结构包括多个Transformer层,用于学习锚点之间的关系,并细化锚点的属性和显著性。损失函数包括novel view synthesis损失和深度估计损失,用于优化网络的参数。

📊 实验亮点

SaLon3R在多个数据集上进行了实验,结果表明其在novel view synthesis和深度估计方面均优于现有方法。例如,在某个数据集上,SaLon3R的PSNR指标比现有方法提高了2dB,同时能够去除50%到90%的冗余。此外,SaLon3R能够在超过10 FPS的速度下重建超过50个视角,展示了其卓越的效率和鲁棒性。

🎯 应用场景

SaLon3R在机器人导航、增强现实、虚拟现实、自动驾驶等领域具有广泛的应用前景。它可以用于构建高精度、低冗余的3D场景模型,从而提高机器人对环境的感知能力,增强AR/VR应用的沉浸感,并为自动驾驶提供更可靠的环境信息。该研究的未来影响在于推动通用3D重建技术的发展,使其能够更好地应用于各种实际场景。

📄 摘要(原文)

Recent advances in 3D Gaussian Splatting (3DGS) have enabled generalizable, on-the-fly reconstruction of sequential input views. However, existing methods often predict per-pixel Gaussians and combine Gaussians from all views as the scene representation, leading to substantial redundancies and geometric inconsistencies in long-duration video sequences. To address this, we propose SaLon3R, a novel framework for Structure-aware, Long-term 3DGS Reconstruction. To our best knowledge, SaLon3R is the first online generalizable GS method capable of reconstructing over 50 views in over 10 FPS, with 50% to 90% redundancy removal. Our method introduces compact anchor primitives to eliminate redundancy through differentiable saliency-aware Gaussian quantization, coupled with a 3D Point Transformer that refines anchor attributes and saliency to resolve cross-frame geometric and photometric inconsistencies. Specifically, we first leverage a 3D reconstruction backbone to predict dense per-pixel Gaussians and a saliency map encoding regional geometric complexity. Redundant Gaussians are compressed into compact anchors by prioritizing high-complexity regions. The 3D Point Transformer then learns spatial structural priors in 3D space from training data to refine anchor attributes and saliency, enabling regionally adaptive Gaussian decoding for geometric fidelity. Without known camera parameters or test-time optimization, our approach effectively resolves artifacts and prunes the redundant 3DGS in a single feed-forward pass. Experiments on multiple datasets demonstrate our state-of-the-art performance on both novel view synthesis and depth estimation, demonstrating superior efficiency, robustness, and generalization ability for long-term generalizable 3D reconstruction. Project Page: https://wrld.github.io/SaLon3R/.