PCR-GS: COLMAP-Free 3D Gaussian Splatting via Pose Co-Regularizations
作者: Yu Wei, Jiahui Zhang, Xiaoqin Zhang, Ling Shao, Shijian Lu
分类: cs.CV
发布日期: 2025-07-18 (更新: 2025-07-21)
💡 一句话要点
PCR-GS:通过位姿协同正则化实现无COLMAP的3D高斯溅射
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 无位姿重建 相机位姿估计 协同正则化 特征重投影 频率正则化 场景重建 计算机视觉
📋 核心要点
- 现有无COLMAP的3D高斯溅射方法在处理具有剧烈相机运动的复杂场景时,相机位姿估计容易退化,导致重建质量下降。
- PCR-GS通过引入相机位姿协同正则化,利用特征重投影和频率信息,提升相机位姿估计的准确性和鲁棒性。
- 实验结果表明,PCR-GS在具有挑战性的相机轨迹下,能够实现更优越的无位姿3D-GS场景建模效果。
📝 摘要(中文)
无COLMAP的3D高斯溅射(3D-GS)最近因其在从无位姿图像或视频中重建高质量3D场景方面的卓越性能而备受关注。然而,它通常难以处理具有复杂相机轨迹的场景,这些场景的特点是相邻相机视图之间存在剧烈的旋转和平移,导致相机位姿估计的退化,以及相机位姿和3D-GS联合优化中的进一步局部最小值。我们提出了PCR-GS,一种创新的无COLMAP的3D-GS技术,通过相机位姿协同正则化实现卓越的3D场景建模和相机位姿估计。PCR-GS从两个角度实现正则化。首先是特征重投影正则化,它从相邻相机视图中提取视图鲁棒的DINO特征,并对齐它们的语义信息以进行相机位姿正则化。其次是基于小波的频率正则化,它利用高频细节的差异来进一步优化相机位姿中的旋转矩阵。在多个真实场景中进行的大量实验表明,所提出的PCR-GS在相机轨迹发生剧烈变化的情况下,实现了优越的无位姿3D-GS场景建模。
🔬 方法详解
问题定义:论文旨在解决在复杂相机运动场景下,无COLMAP的3D高斯溅射方法中相机位姿估计不准确的问题。现有方法在相邻视图存在剧烈旋转和平移时,容易陷入局部最优,导致重建质量下降。
核心思路:论文的核心思路是通过引入相机位姿协同正则化来约束相机位姿的估计。具体来说,利用相邻视图之间的特征一致性和高频细节信息,对相机位姿进行约束,从而提高位姿估计的准确性和鲁棒性。这样设计的目的是为了减少对初始位姿的依赖,并避免陷入局部最小值。
技术框架:PCR-GS的整体框架包含以下几个主要步骤:1) 从输入图像中提取DINO特征;2) 利用特征重投影正则化对相机位姿进行初步优化;3) 利用基于小波的频率正则化进一步优化相机位姿中的旋转矩阵;4) 将优化后的相机位姿用于3D高斯溅射的场景重建。
关键创新:论文的关键创新在于提出了相机位姿协同正则化,它结合了特征重投影和频率信息,能够有效地约束相机位姿的估计。与现有方法相比,PCR-GS不需要依赖COLMAP等外部工具,并且能够更好地处理复杂相机运动场景。
关键设计:特征重投影正则化通过最小化相邻视图中DINO特征之间的距离来实现。基于小波的频率正则化则利用小波变换提取图像的高频细节,并通过最小化高频细节的差异来优化旋转矩阵。损失函数由特征重投影损失和频率正则化损失加权组成,权重参数需要根据具体场景进行调整。DINO特征提取采用预训练模型,无需额外训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PCR-GS在多个真实场景中实现了优越的性能。尤其是在相机轨迹发生剧烈变化的情况下,PCR-GS能够显著提高相机位姿估计的准确性,并生成更高质量的3D场景模型。相较于其他无COLMAP的3D-GS方法,PCR-GS在重建质量和位姿估计精度上均有明显提升。
🎯 应用场景
PCR-GS技术可应用于增强现实、虚拟现实、机器人导航、自动驾驶等领域。它能够从无位姿的图像或视频中重建高质量的3D场景,为这些应用提供精确的环境感知和定位能力。该技术在无需预先进行场景结构化建模的情况下,即可实现快速的场景重建,具有重要的实际应用价值。
📄 摘要(原文)
COLMAP-free 3D Gaussian Splatting (3D-GS) has recently attracted increasing attention due to its remarkable performance in reconstructing high-quality 3D scenes from unposed images or videos. However, it often struggles to handle scenes with complex camera trajectories as featured by drastic rotation and translation across adjacent camera views, leading to degraded estimation of camera poses and further local minima in joint optimization of camera poses and 3D-GS. We propose PCR-GS, an innovative COLMAP-free 3DGS technique that achieves superior 3D scene modeling and camera pose estimation via camera pose co-regularization. PCR-GS achieves regularization from two perspectives. The first is feature reprojection regularization which extracts view-robust DINO features from adjacent camera views and aligns their semantic information for camera pose regularization. The second is wavelet-based frequency regularization which exploits discrepancy in high-frequency details to further optimize the rotation matrix in camera poses. Extensive experiments over multiple real-world scenes show that the proposed PCR-GS achieves superior pose-free 3D-GS scene modeling under dramatic changes of camera trajectories.