RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
作者: Fang Li, Hao Zhang, Narendra Ahuja
分类: cs.CV
发布日期: 2025-09-18 (更新: 2025-09-19)
备注: NeurIPS 2025 Spotlight
💡 一句话要点
提出ROS-Cam,仅用RGB视频即可高效准确地优化动态场景中的相机参数。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 相机参数优化 动态场景 RGB视频 运动估计 三维重建
📋 核心要点
- 现有相机参数优化方法在动态场景中依赖GT运动掩模,且运行时间长,限制了其应用。
- ROS-Cam通过块状跟踪滤波器建立稀疏关系,并使用异常值感知联合优化,无需运动先验。
- 实验表明,ROS-Cam在多个数据集上,仅使用RGB视频即可高效准确地估计相机参数。
📝 摘要(中文)
尽管COLMAP长期以来一直是静态场景中相机参数优化的主要方法,但它受到运行时间长和依赖于真实运动掩模的限制,无法应用于动态场景。许多研究试图通过引入更多先验信息作为监督来改进它,例如真实焦距、运动掩模、3D点云、相机姿态和度量深度,然而,这些信息在随意拍摄的RGB视频中通常是不可用的。在本文中,我们提出了一种新的方法,用于更准确和高效地优化动态场景中的相机参数,仅由单个RGB视频监督,称为ROS-Cam。我们的方法包括三个关键组成部分:(1)块状跟踪滤波器,用于在RGB视频中建立鲁棒且最大程度稀疏的铰链状关系。(2)异常值感知联合优化,通过自适应地降低移动异常值的权重来高效地优化相机参数,而无需依赖运动先验。(3)两阶段优化策略,通过损失中Softplus限制和凸最小值之间的权衡来提高稳定性和优化速度。我们通过视觉和数值方式评估了我们的相机估计。为了进一步验证准确性,我们将相机估计输入到4D重建方法中,并评估生成的3D场景以及渲染的2D RGB和深度图。我们在4个真实世界数据集(NeRF-DS、DAVIS、iPhone和TUM-dynamics)和1个合成数据集(MPI-Sintel)上进行了实验,证明我们的方法仅使用单个RGB视频作为监督,能够更高效和准确地估计相机参数。
🔬 方法详解
问题定义:论文旨在解决动态场景下相机参数优化的问题。现有方法,如COLMAP,在动态场景中表现不佳,主要原因是它们依赖于耗时的特征匹配和几何约束,并且通常需要ground truth的运动掩码作为先验知识,这在实际应用中很难获得。因此,如何在仅有RGB视频的情况下,高效且准确地估计动态场景中的相机参数是一个挑战。
核心思路:ROS-Cam的核心思路是利用RGB视频中的信息,通过建立鲁棒的图像块之间的对应关系,并结合异常值感知的优化策略,来估计相机参数。该方法避免了对运动先验的依赖,并且通过两阶段优化策略提高了优化速度和稳定性。
技术框架:ROS-Cam的整体框架包含三个主要模块:1) Patch-wise Tracking Filters(块状跟踪滤波器):用于在RGB视频中建立鲁棒且稀疏的铰链状关系。2) Outlier-aware Joint Optimization(异常值感知联合优化):通过自适应地降低移动异常值的权重来高效地优化相机参数。3) Two-stage Optimization Strategy(两阶段优化策略):通过损失函数中Softplus限制和凸最小值之间的权衡来提高稳定性和优化速度。
关键创新:该方法最重要的创新点在于它能够在仅使用RGB视频作为监督的情况下,实现动态场景下的相机参数优化。与现有方法相比,ROS-Cam不需要ground truth的运动掩码或其他先验信息,并且通过异常值感知的优化策略,能够有效地处理动态场景中的运动物体。
关键设计:在Patch-wise Tracking Filters中,使用了基于互相关性的图像块跟踪方法,以建立图像之间的对应关系。在Outlier-aware Joint Optimization中,设计了一种自适应的权重函数,用于降低移动异常值的权重。在Two-stage Optimization Strategy中,首先使用Softplus损失函数进行粗略的优化,然后使用凸损失函数进行精细的优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ROS-Cam在NeRF-DS、DAVIS、iPhone、TUM-dynamics和MPI-Sintel等数据集上均取得了优异的性能。与现有方法相比,ROS-Cam在相机参数估计的准确性和效率方面均有显著提升,尤其是在动态场景下,能够有效地处理运动物体带来的干扰。具体性能数据未知,但论文强调了其优于现有方法的表现。
🎯 应用场景
该研究成果可广泛应用于增强现实、虚拟现实、机器人导航、自动驾驶等领域。通过仅使用RGB视频进行相机参数优化,可以降低对硬件设备和先验知识的依赖,提高系统的鲁棒性和适应性。未来,该方法有望应用于更复杂的动态场景,例如人群场景、光照变化剧烈的场景等。
📄 摘要(原文)
Although COLMAP has long remained the predominant method for camera parameter optimization in static scenes, it is constrained by its lengthy runtime and reliance on ground truth (GT) motion masks for application to dynamic scenes. Many efforts attempted to improve it by incorporating more priors as supervision such as GT focal length, motion masks, 3D point clouds, camera poses, and metric depth, which, however, are typically unavailable in casually captured RGB videos. In this paper, we propose a novel method for more accurate and efficient camera parameter optimization in dynamic scenes solely supervised by a single RGB video, dubbed ROS-Cam. Our method consists of three key components: (1) Patch-wise Tracking Filters, to establish robust and maximally sparse hinge-like relations across the RGB video. (2) Outlier-aware Joint Optimization, for efficient camera parameter optimization by adaptive down-weighting of moving outliers, without reliance on motion priors. (3) A Two-stage Optimization Strategy, to enhance stability and optimization speed by a trade-off between the Softplus limits and convex minima in losses. We visually and numerically evaluate our camera estimates. To further validate accuracy, we feed the camera estimates into a 4D reconstruction method and assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics) and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates camera parameters more efficiently and accurately with a single RGB video as the only supervision.