Kineo: Calibration-Free Metric Motion Capture From Sparse RGB Cameras

📄 arXiv: 2510.24464v2 📥 PDF

作者: Charles Javerliat, Pierre Raimbaud, Guillaume Lavoué

分类: cs.CV

发布日期: 2025-10-28 (更新: 2025-11-03)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Kineo:提出一种基于稀疏RGB相机的免标定度量运动捕捉方法。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 运动捕捉 免标定 多视角 三维重建 相机标定

📋 核心要点

  1. 现有多视角运动捕捉依赖精确相机标定,限制了非专业人士和野外场景的应用。
  2. Kineo利用2D关键点检测,同步进行相机标定和3D重建,无需预先标定,且计算成本固定。
  3. 实验表明,Kineo在相机标定和3D人体姿态估计方面显著优于现有免标定方法。

📝 摘要(中文)

本文提出Kineo,一个全自动、免标定的运动捕捉流程,它利用非同步、未标定的消费级RGB相机拍摄的视频。Kineo利用现成的2D关键点检测器,同时标定相机(包括Brown-Conrady畸变系数),并以度量尺度重建3D关键点和稠密场景点云。一种置信度驱动的时空关键点采样策略,结合基于图的全局优化,确保了鲁棒的标定,且计算成本与序列长度无关。此外,本文还引入了成对重投影一致性评分,以量化3D重建的可靠性,供下游任务使用。在EgoHumans和Human3.6M数据集上的评估表明,Kineo相比之前的免标定方法有显著改进。与之前的最先进方法相比,Kineo将相机平移误差降低了约83-85%,相机角度误差降低了86-92%,世界平均单关节误差(W-MPJPE)降低了83-91%。Kineo在实际场景中也很高效,在特定配置下,处理多视角序列的速度快于序列本身的持续时间(例如,处理1小时20分钟的素材需要36分钟)。完整的流程和评估代码已开源。

🔬 方法详解

问题定义:现有的多视角运动捕捉系统通常需要精确的相机标定,这限制了其在非专业环境和野外场景中的应用。虽然存在免标定的方法,但它们通常计算成本高昂,或者重建精度较低。因此,需要一种高效且准确的免标定运动捕捉方法。

核心思路:Kineo的核心思路是利用现成的2D关键点检测器,通过全局优化同时进行相机标定和3D人体姿态重建。通过置信度驱动的时空关键点采样策略,减少了计算量,并提高了标定的鲁棒性。此外,引入成对重投影一致性评分来评估3D重建的可靠性。

技术框架:Kineo的整体流程包括以下几个主要阶段:1) 2D关键点检测:使用现成的2D关键点检测器从多视角视频中提取2D关键点。2) 时空关键点采样:根据关键点的置信度进行时空采样,选择最具代表性的关键点。3) 相机标定和3D重建:使用全局优化方法,同时估计相机参数(包括Brown-Conrady畸变系数)和3D关键点位置。4) 重投影一致性评分:计算成对重投影一致性评分,评估3D重建的可靠性。

关键创新:Kineo的关键创新在于其全自动、免标定的流程,以及置信度驱动的时空关键点采样策略。与现有方法相比,Kineo无需预先标定相机,并且计算成本与序列长度无关。此外,成对重投影一致性评分提供了一种量化3D重建可靠性的方法。

关键设计:Kineo使用基于图的全局优化方法进行相机标定和3D重建。损失函数包括重投影误差和3D关键点之间的约束。置信度驱动的时空关键点采样策略根据关键点的置信度选择最具代表性的关键点,从而减少计算量并提高标定的鲁棒性。成对重投影一致性评分通过比较不同视角下的重投影误差来评估3D重建的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在EgoHumans和Human3.6M数据集上的实验结果表明,Kineo显著优于现有的免标定方法。具体来说,Kineo将相机平移误差降低了约83-85%,相机角度误差降低了86-92%,世界平均单关节误差(W-MPJPE)降低了83-91%。此外,Kineo在实际场景中也很高效,处理多视角序列的速度快于序列本身的持续时间。

🎯 应用场景

Kineo可应用于虚拟现实、增强现实、游戏开发、运动分析、人机交互等领域。其免标定特性使其易于部署在各种环境中,无需专业的标定设备和技术人员。该技术可以促进更自然、更真实的虚拟体验,并为运动科学研究提供新的工具。

📄 摘要(原文)

Markerless multiview motion capture is often constrained by the need for precise camera calibration, limiting accessibility for non-experts and in-the-wild captures. Existing calibration-free approaches mitigate this requirement but suffer from high computational cost and reduced reconstruction accuracy. We present Kineo, a fully automatic, calibration-free pipeline for markerless motion capture from videos captured by unsynchronized, uncalibrated, consumer-grade RGB cameras. Kineo leverages 2D keypoints from off-the-shelf detectors to simultaneously calibrate cameras, including Brown-Conrady distortion coefficients, and reconstruct 3D keypoints and dense scene point maps at metric scale. A confidence-driven spatio-temporal keypoint sampling strategy, combined with graph-based global optimization, ensures robust calibration at a fixed computational cost independent of sequence length. We further introduce a pairwise reprojection consensus score to quantify 3D reconstruction reliability for downstream tasks. Evaluations on EgoHumans and Human3.6M demonstrate substantial improvements over prior calibration-free methods. Compared to previous state-of-the-art approaches, Kineo reduces camera translation error by approximately 83-85%, camera angular error by 86-92%, and world mean-per-joint error (W-MPJPE) by 83-91%. Kineo is also efficient in real-world scenarios, processing multi-view sequences faster than their duration in specific configuration (e.g., 36min to process 1h20min of footage). The full pipeline and evaluation code are openly released to promote reproducibility and practical adoption at https://liris-xr.github.io/kineo/.