MultiCam: On-the-fly Multi-Camera Pose Estimation Using Spatiotemporal Overlaps of Known Objects
作者: Shiyu Li, Hannah Schieber, Kristoffer Waldow, Benjamin Busam, Julian Kreimeier, Daniel Roth
分类: cs.CV
发布日期: 2026-03-24
🔗 代码/项目: GITHUB
💡 一句话要点
提出MultiCam,利用时空重叠的已知物体进行动态多相机位姿估计
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 多相机位姿估计 增强现实 时空场景图 物体位姿估计 动态环境
📋 核心要点
- 传统多相机AR应用依赖预标定或marker进行位姿估计,限制了应用场景和灵活性。
- MultiCam利用已知物体在多相机视场中的时空重叠关系,动态更新场景图,实现无marker的位姿估计。
- 实验结果表明,MultiCam在公开数据集和自建数据集上均优于现有方法,验证了其有效性。
📝 摘要(中文)
本文提出了一种动态多相机位姿估计方法,名为MultiCam,它利用已知物体的时空视场重叠,无需预先标定或持续使用marker。该方法增强了当前最先进的物体位姿估计器,以更新时空场景图,从而实现即使在非重叠视场相机之间的关联。为了评估该方法,作者构建了一个包含静态和动态相机的多相机、多物体位姿估计数据集,该数据集具有时序视场重叠。在视场重叠场景中,该方法在YCB-V和T-LESS数据集上优于当前最先进的方法,验证了该方法在AR应用中无需marker的有效性。代码和数据集已开源。
🔬 方法详解
问题定义:现有的多相机位姿估计方法通常依赖于预先的相机标定或者持续使用marker,这限制了其在动态环境和复杂场景中的应用。Marker需要始终位于相机的视场内,这在实际应用中是一个很大的限制。因此,需要一种无需marker,能够利用场景中已有的信息进行动态位姿估计的方法。
核心思路:MultiCam的核心思路是利用场景中已知物体的时空视场重叠关系。即使相机之间没有直接的视场重叠,只要它们在不同时间观察到相同的已知物体,就可以通过这些物体建立相机之间的关联,从而实现多相机位姿的动态估计。
技术框架:MultiCam的技术框架主要包含以下几个模块:1) 使用先进的物体位姿估计器来检测和估计场景中已知物体的位姿。2) 构建一个时空场景图,该图存储了物体和相机在不同时间点的位姿信息,以及它们之间的关联关系。3) 利用时空场景图中的信息,通过优化算法来不断更新和优化相机的位姿估计。
关键创新:MultiCam的关键创新在于它能够利用时空视场重叠关系,即使在相机之间没有直接视场重叠的情况下,也能实现多相机位姿的动态估计。这与传统的依赖于marker或预标定的方法有本质区别,因为它能够利用场景中已有的信息,从而更加灵活和鲁棒。
关键设计:MultiCam的关键设计包括:1) 使用先进的物体位姿估计器,例如基于深度学习的方法,来提高物体位姿估计的准确性和鲁棒性。2) 设计合适的时空场景图结构,以便有效地存储和查询物体和相机的位姿信息。3) 设计合适的优化算法,例如基于图优化的方法,来不断更新和优化相机的位姿估计。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MultiCam在视场重叠场景中,在YCB-V和T-LESS数据集上优于当前最先进的方法。此外,作者还构建了一个新的多相机、多物体位姿估计数据集,该数据集具有时序视场重叠,包括静态和动态相机,并在该数据集上验证了MultiCam的有效性。这些实验结果充分证明了MultiCam在多相机位姿估计方面的优越性能。
🎯 应用场景
MultiCam在多相机动态增强现实(AR)应用中具有广泛的应用前景。例如,它可以用于多人协作的AR游戏、远程协作的工业维护、以及无需预先标定的机器人导航等场景。该方法能够提高AR应用的灵活性和鲁棒性,降低对环境的依赖,从而推动AR技术在更多领域的应用。
📄 摘要(原文)
Multi-camera dynamic Augmented Reality (AR) applications require a camera pose estimation to leverage individual information from each camera in one common system. This can be achieved by combining contextual information, such as markers or objects, across multiple views. While commonly cameras are calibrated in an initial step or updated through the constant use of markers, another option is to leverage information already present in the scene, like known objects. Another downside of marker-based tracking is that markers have to be tracked inside the field-of-view (FoV) of the cameras. To overcome these limitations, we propose a constant dynamic camera pose estimation leveraging spatiotemporal FoV overlaps of known objects on the fly. To achieve that, we enhance the state-of-the-art object pose estimator to update our spatiotemporal scene graph, enabling a relation even among non-overlapping FoV cameras. To evaluate our approach, we introduce a multi-camera, multi-object pose estimation dataset with temporal FoV overlap, including static and dynamic cameras. Furthermore, in FoV overlapping scenarios, we outperform the state-of-the-art on the widely used YCB-V and T-LESS dataset in camera pose accuracy. Our performance on both previous and our proposed datasets validates the effectiveness of our marker-less approach for AR applications. The code and dataset are available on https://github.com/roth-hex-lab/IEEE-VR-2026-MultiCam.