Spatiotemporal Multi-Camera Calibration using Freely Moving People

📄 arXiv: 2502.12546v3 📥 PDF

作者: Sang-Eun Lee, Ko Nishino, Shohei Nobuhara

分类: cs.CV

发布日期: 2025-02-18 (更新: 2025-07-26)

备注: Accepted to IEEE Robotics and Automation Letters (RA-L)


💡 一句话要点

提出一种基于自由移动行人的时空多相机标定方法

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 多相机标定 时空标定 人体姿态估计 无标记标定 三维重建

📋 核心要点

  1. 传统多相机标定方法依赖于标定板等辅助设备,限制了应用场景,且难以处理时空同步问题。
  2. 该方法利用单目3D人体姿态估计结果,将标定问题转化为3D点集配准,同时优化相机位姿和时间偏移。
  3. 实验表明,该方法在合成和真实数据上均表现出良好的标定精度,是一种实用的无标记标定工具。

📝 摘要(中文)

本文提出了一种新颖的时空多相机标定方法,该方法利用多视角视频中自由移动的行人。由于标定多个相机以及在不同视角之间寻找匹配点是内在相互依赖的,因此在一个统一的框架中同时执行这两项任务极具挑战性。我们通过将该问题转化为匹配两组3D点的单一配准问题来解决这些难题,充分利用了动态多人场景中的人体运动。为此,我们利用现成的单目3D人体姿态估计器获得的3D人体姿态,并将其转换为单位球体上的3D点,从而交替地求解旋转、时间偏移和关联。我们采用了一种概率方法,该方法可以通过两个视图之间的软分配来联合解决时空数据对齐和建立对应关系的问题。平移通过应用共面约束来确定。成对配准结果被整合到多视图设置中,然后使用非线性优化方法来提高相机姿态、时间偏移和多人关联的准确性。在合成数据和真实数据上进行的大量实验证明了该方法作为一种实用的无标记标定工具的有效性和灵活性。

🔬 方法详解

问题定义:多相机标定旨在确定多个相机之间的相对位姿关系,以及它们的时间同步关系。传统方法通常依赖于特定的标定物体(如标定板),这限制了其在复杂或动态环境中的应用。此外,时空同步问题,即不同相机之间的时间偏移,也是一个重要的挑战。现有方法难以在没有标定物的情况下,同时解决相机位姿和时间偏移的标定问题。

核心思路:该论文的核心思路是利用场景中自由移动的人作为标定目标。通过单目3D人体姿态估计器获取人体3D姿态信息,并将这些姿态信息转化为单位球体上的3D点。然后,将多相机标定问题转化为不同相机视角下3D点集的配准问题,同时优化相机位姿和时间偏移。这种方法无需标定物,并且能够同时解决空间和时间上的标定问题。

技术框架:该方法主要包含以下几个阶段:1) 使用单目3D人体姿态估计器提取多视角视频中的人体3D姿态;2) 将3D姿态信息投影到单位球面上,形成3D点集;3) 使用概率方法进行成对相机之间的配准,估计旋转、时间偏移和对应关系;4) 利用共面约束确定平移;5) 将成对配准结果整合到多视图设置中;6) 使用非线性优化方法进一步提高相机位姿、时间偏移和多人关联的准确性。

关键创新:该方法最重要的创新点在于利用自由移动的人体作为标定目标,无需任何人工标定物。此外,该方法采用概率方法联合解决时空数据对齐和建立对应关系的问题,能够有效地处理噪声和遮挡。与现有方法相比,该方法更加灵活,适用于更广泛的场景。

关键设计:该方法使用单位球面上的3D点来表示人体姿态,这使得旋转估计更加稳定。概率方法中的软分配策略能够处理不确定性和噪声。非线性优化方法用于全局优化相机位姿和时间偏移,提高标定精度。共面约束用于确定相机之间的平移关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在合成数据和真实数据上进行了大量实验,结果表明该方法能够有效地标定多相机系统,并且具有较高的精度。实验结果表明,该方法在相机位姿和时间偏移的估计方面均优于现有的方法。此外,该方法还能够处理复杂的场景,例如多人场景和存在遮挡的场景。

🎯 应用场景

该研究成果可广泛应用于智能监控、运动分析、虚拟现实、自动驾驶等领域。例如,在智能监控中,可以利用该方法标定多个监控摄像头,实现对场景的全面监控和分析。在运动分析中,可以利用该方法标定多个相机,捕捉运动员的运动轨迹,进行技术分析和改进。在虚拟现实和自动驾驶中,精确的多相机标定是实现环境感知和三维重建的关键。

📄 摘要(原文)

We propose a novel method for spatiotemporal multi-camera calibration using freely moving people in multiview videos. Since calibrating multiple cameras and finding matches across their views are inherently interdependent, performing both in a unified framework poses a significant challenge. We address these issues as a single registration problem of matching two sets of 3D points, leveraging human motion in dynamic multi-person scenes. To this end, we utilize 3D human poses obtained from an off-the-shelf monocular 3D human pose estimator and transform them into 3D points on a unit sphere, to solve the rotation, time offset, and the association alternatingly. We employ a probabilistic approach that can jointly solve both problems of aligning spatiotemporal data and establishing correspondences through soft assignment between two views. The translation is determined by applying coplanarity constraints. The pairwise registration results are integrated into a multiview setup, and then a nonlinear optimization method is used to improve the accuracy of the camera poses, temporal offsets, and multi-person associations. Extensive experiments on synthetic and real data demonstrate the effectiveness and flexibility of the proposed method as a practical marker-free calibration tool.