Humans as Checkerboards: Calibrating Camera Motion Scale for World-Coordinate Human Mesh Recovery

作者: Fengyuan Yang, Kerui Gu, Ha Linh Nguyen, Tze Ho Elden Tse, Angela Yao

分类: cs.CV

发布日期: 2024-06-30 (更新: 2024-12-12)

备注: 13 pages, 11 figures, 6 tables

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出HAC：利用人体网格作为标定板，实现世界坐标系下精确人体运动估计

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 人体网格恢复 单目SLAM 尺度标定 全局运动估计 人机交互

📋 核心要点

现有方法依赖优化来估计单目SLAM的尺度因子，但这种方法不可靠且耗时。
HAC方法将人体网格恢复模型预测的人体视为标定板，利用人与场景接触关节的绝对深度来标定SLAM的相对深度。
实验结果表明，HAC在全局人体网格估计任务上取得了SOTA性能，运动误差降低50%，推理速度提升100倍。

📝 摘要（中文）

本文提出了一种无需优化的尺度标定框架，名为“人体即标定板”（HAC）。HAC创新性地利用人体网格恢复模型预测的人体作为标定参考。具体而言，它使用人与场景接触关节的绝对深度作为参考，来标定来自SLAM的相应相对场景深度。HAC受益于人体网格恢复模型中编码的几何先验，从而估计SLAM尺度，并实现精确的全局人体运动估计。我们的方法简单而强大，为全局人体网格估计任务设定了新的state-of-the-art性能，与之前的局部到全局方法相比，运动误差降低了50%，且推理时间减少了100倍（相比于基于优化的方法）。

🔬 方法详解

问题定义：论文旨在解决从RGB视频中恢复世界坐标系下全局人体运动的问题。现有方法通常依赖单目SLAM估计相机轨迹和点云，但单目SLAM只能估计到未知的尺度因子。以往工作通过优化来估计尺度因子，但这种方法不稳定且计算成本高昂。

核心思路：论文的核心思路是将人体视为一个标定板，利用人体网格恢复模型提供的几何先验信息，特别是人与场景接触的关键点（如脚与地面接触点）的绝对深度，来校准SLAM估计的场景深度。这样就可以避免耗时的优化过程，直接获得准确的尺度因子。

技术框架：HAC框架主要包含以下几个步骤：1) 使用单目SLAM（如ORB-SLAM3）估计相机轨迹和场景点云；2) 使用人体网格恢复模型（如HMR、SPIN等）预测每一帧图像中的人体网格；3) 检测人体网格与场景的接触关节（如脚与地面的接触点）；4) 利用接触关节的绝对深度信息，校准SLAM估计的场景深度，从而获得准确的尺度因子；5) 将校准后的相机轨迹和人体网格转换到世界坐标系下。

关键创新：HAC的关键创新在于将人体网格恢复模型与SLAM相结合，利用人体作为标定板来校准SLAM的尺度。这种方法避免了传统的优化方法，大大提高了效率和稳定性。此外，HAC充分利用了人体网格恢复模型中编码的几何先验信息，提高了尺度估计的准确性。

关键设计：HAC的关键设计包括：1) 精确的人体网格恢复模型，用于提供准确的人体姿态和形状信息；2) 可靠的接触关节检测算法，用于确定人与场景的接触点；3) 有效的尺度校准方法，用于将接触关节的绝对深度信息与SLAM估计的相对深度信息对齐。论文中没有明确提及具体的损失函数或网络结构，但强调了利用人体网格恢复模型提供的几何先验。

🖼️ 关键图片

📊 实验亮点

HAC方法在全局人体网格估计任务上取得了显著的性能提升。实验结果表明，HAC方法将运动误差降低了50%，并且推理时间减少了100倍（相比于基于优化的方法）。这表明HAC方法在精度和效率方面都优于现有的方法，为全局人体运动估计提供了一种新的解决方案。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、增强现实、运动分析、机器人导航等领域。例如，在虚拟现实中，可以利用该方法将虚拟人物放置在真实场景中，并实现自然的人机交互。在运动分析中，可以利用该方法精确地跟踪运动员的运动轨迹，并进行运动分析和评估。在机器人导航中，可以利用该方法帮助机器人理解周围环境，并进行自主导航。

📄 摘要（原文）

Accurate camera motion estimation is essential for recovering global human motion in world coordinates from RGB video inputs. SLAM is widely used for estimating camera trajectory and point cloud, but monocular SLAM does so only up to an unknown scale factor. Previous works estimate the scale factor through optimization, but this is unreliable and time-consuming. This paper presents an optimization-free scale calibration framework, Human as Checkerboard (HAC). HAC innovatively leverages the human body predicted by human mesh recovery model as a calibration reference. Specifically, it uses the absolute depth of human-scene contact joints as references to calibrate the corresponding relative scene depth from SLAM. HAC benefits from geometric priors encoded in human mesh recovery models to estimate the SLAM scale and achieves precise global human motion estimation. Simple yet powerful, our method sets a new state-of-the-art performance for global human mesh estimation tasks, reducing motion errors by 50% over prior local-to-global methods while using 100$\times$ less inference time than optimization-based methods. Project page: https://martayang.github.io/HAC.

Humans as Checkerboards: Calibrating Camera Motion Scale for World-Coordinate Human Mesh Recovery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理