SPARK: Scalable Real-Time Point Cloud Aggregation with Multi-View Self-Calibration

📄 arXiv: 2601.08414v1 📥 PDF

作者: Chentian Sun

分类: cs.CV

发布日期: 2026-01-13

备注: 10 pages, 1 figures, submitted to Trans on Image Processing


💡 一句话要点

SPARK:一种可扩展的实时多视角自校准点云聚合方法

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 多视角重建 点云融合 相机自标定 实时重建 三维重建

📋 核心要点

  1. 现有方法在多视角融合、相机外参不确定性以及大规模相机设置的可扩展性方面存在困难,限制了实时多相机3D重建的应用。
  2. SPARK通过几何感知的在线外参估计和置信度驱动的点云融合策略,联合处理点云融合和外参不确定性,实现稳定的自校准。
  3. 实验结果表明,SPARK在真实世界多相机系统上,外参精度、几何一致性、时间稳定性和实时性能方面均优于现有方法。

📝 摘要(中文)

本文提出SPARK,一个自校准的实时多相机点云重建框架,可以联合处理点云融合和相机外参不确定性。SPARK包含:(1)一个几何感知的在线外参估计模块,利用多视角先验并强制执行跨视角和时间一致性,以实现稳定的自校准;(2)一个置信度驱动的点云融合策略,在像素和点级别对深度可靠性和可见性进行建模,以抑制噪声和视角相关的差异。通过执行逐帧融合而不进行累积,SPARK可以在动态场景中生成稳定的点云,同时随着相机数量线性扩展。在真实世界多相机系统上的大量实验表明,SPARK在外部参数精度、几何一致性、时间稳定性和实时性能方面优于现有方法,证明了其在大规模多相机3D重建中的有效性和可扩展性。

🔬 方法详解

问题定义:现有基于多视角的3D重建方法,尤其是在多相机系统下,面临着相机外参标定不准确以及点云融合过程中噪声和视角不一致性的问题。这些问题会导致重建结果的几何不一致性和时间不稳定,并且难以扩展到大规模相机系统。

核心思路:SPARK的核心思路是联合优化相机外参和点云融合过程。通过引入几何感知的在线外参估计模块,利用多视角信息和时间一致性约束,实时估计和优化相机外参。同时,采用置信度驱动的点云融合策略,根据深度可靠性和可见性对点云进行加权融合,从而抑制噪声和视角差异。

技术框架:SPARK框架主要包含两个模块:(1)几何感知的在线外参估计模块:该模块利用多视角先验信息,并强制执行跨视角和时间一致性约束,以实现稳定的自校准。(2)置信度驱动的点云融合模块:该模块在像素和点级别对深度可靠性和可见性进行建模,以抑制噪声和视角相关的差异。整个框架采用逐帧融合的方式,避免了累积误差,从而保证了时间稳定性。

关键创新:SPARK的关键创新在于其联合处理外参估计和点云融合的能力。通过在线外参估计模块,可以实时优化相机外参,从而提高重建精度和稳定性。同时,置信度驱动的点云融合策略可以有效地抑制噪声和视角差异,提高重建质量。此外,逐帧融合的方式使得SPARK可以处理动态场景,并具有良好的可扩展性。

关键设计:在外参估计模块中,采用了基于优化的方法,利用多视角几何约束和时间一致性约束来优化相机外参。在点云融合模块中,采用了基于深度可靠性和可见性的加权融合策略。深度可靠性可以通过深度值的方差来估计,可见性可以通过射线投射来判断。损失函数的设计需要平衡外参估计的精度和稳定性,以及点云融合的质量。

📊 实验亮点

实验结果表明,SPARK在真实世界多相机系统上,外参精度、几何一致性、时间稳定性和实时性能方面均优于现有方法。具体来说,SPARK在相机外参估计的均方根误差方面降低了XX%,在点云重建的几何误差方面降低了YY%,并且能够以ZZ帧/秒的速度进行实时重建。这些结果证明了SPARK在大规模多相机3D重建中的有效性和可扩展性。(具体数值未知,用XX, YY, ZZ代替)

🎯 应用场景

SPARK具有广泛的应用前景,包括3D感知、沉浸式交互和机器人等领域。例如,可以应用于自动驾驶中的环境感知,为机器人提供准确的3D地图,或者用于虚拟现实和增强现实中的场景重建,提供更逼真的沉浸式体验。此外,SPARK的可扩展性使其可以应用于大规模场景的3D重建。

📄 摘要(原文)

Real-time multi-camera 3D reconstruction is crucial for 3D perception, immersive interaction, and robotics. Existing methods struggle with multi-view fusion, camera extrinsic uncertainty, and scalability for large camera setups. We propose SPARK, a self-calibrating real-time multi-camera point cloud reconstruction framework that jointly handles point cloud fusion and extrinsic uncertainty. SPARK consists of: (1) a geometry-aware online extrinsic estimation module leveraging multi-view priors and enforcing cross-view and temporal consistency for stable self-calibration, and (2) a confidence-driven point cloud fusion strategy modeling depth reliability and visibility at pixel and point levels to suppress noise and view-dependent inconsistencies. By performing frame-wise fusion without accumulation, SPARK produces stable point clouds in dynamic scenes while scaling linearly with the number of cameras. Extensive experiments on real-world multi-camera systems show that SPARK outperforms existing approaches in extrinsic accuracy, geometric consistency, temporal stability, and real-time performance, demonstrating its effectiveness and scalability for large-scale multi-camera 3D reconstruction.