ARTS: Semi-Analytical Regressor using Disentangled Skeletal Representations for Human Mesh Recovery from Videos

📄 arXiv: 2410.15582v1 📥 PDF

作者: Tao Tang, Hong Liu, Yingxuan You, Ti Wang, Wenhao Li

分类: cs.CV

发布日期: 2024-10-21

备注: Accepted by ACM MM 2024. Project page: https://github.com/TangTao-PKU/ARTS

DOI: 10.1145/3664647.3680881

🔗 代码/项目: GITHUB


💡 一句话要点

ARTS:利用解耦骨骼表示的半解析回归器,用于视频人体网格重建

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体网格重建 视频分析 骨骼表示 半解析回归 逆运动学 形状拟合 运动估计

📋 核心要点

  1. 现有基于视频的人体网格重建方法受限于低分辨率图像特征,导致姿势估计不准确和运动不连贯。
  2. ARTS提出解耦骨骼表示,利用关节位置、骨骼长度和人体运动信息,通过半解析回归器提升重建效果。
  3. 实验表明,ARTS在3DPW、MPI-INF-3DHP和Human3.6M等数据集上,在精度和时间一致性方面均优于现有方法。

📝 摘要(中文)

现有的基于视频的3D人体网格重建方法取得了显著进展,但同时从低分辨率图像特征中估计人体姿势和形状限制了其性能。这些图像特征缺乏足够的人体空间信息,并且包含各种噪声(例如,背景、光照和服装),这通常导致不准确的姿势和不一致的运动。受到人体姿势估计快速发展的启发,我们发现与图像特征相比,骨骼本身就包含准确的人体姿势和运动信息。因此,我们提出了一种新颖的半解析回归器,它使用解耦的骨骼表示来进行视频人体网格重建,称为ARTS。具体来说,我们提出了一个骨骼估计和解耦模块,用于从视频中估计3D骨骼,并将其解耦为解耦的骨骼表示(即,关节位置、骨骼长度和人体运动)。然后,为了充分利用这些表示,我们引入了一个半解析回归器来估计人体网格模型的参数。该回归器由三个模块组成:时间逆运动学(TIK)、骨骼引导的形状拟合(BSF)和运动中心细化(MCR)。TIK利用关节位置来估计初始姿势参数,BSF利用骨骼长度来回归骨骼对齐的形状参数。最后,MCR将人体运动表示与图像特征相结合,以细化初始人体模型参数。大量实验表明,在流行的基准测试3DPW、MPI-INF-3DHP和Human3.6M上,我们的ARTS在逐帧精度和时间一致性方面均优于现有的最先进的基于视频的方法。

🔬 方法详解

问题定义:现有基于视频的人体网格重建方法依赖于图像特征,但图像特征包含噪声且缺乏空间信息,导致姿势和形状估计不准确,尤其是在低分辨率图像中。这限制了重建的精度和时间一致性。

核心思路:论文的核心思路是利用骨骼信息作为更可靠的姿势和运动先验。与图像特征相比,骨骼信息更准确地反映了人体姿势和运动,并且对图像噪声不敏感。通过解耦骨骼表示,可以更好地利用这些信息来指导人体网格重建。

技术框架:ARTS包含以下主要模块:1) 骨骼估计和解耦模块:从视频中估计3D骨骼,并将其解耦为关节位置、骨骼长度和人体运动三种表示。2) 半解析回归器:包含时间逆运动学(TIK)、骨骼引导的形状拟合(BSF)和运动中心细化(MCR)三个模块。TIK利用关节位置估计初始姿势,BSF利用骨骼长度回归形状参数,MCR结合人体运动和图像特征进行细化。

关键创新:ARTS的关键创新在于:1) 提出解耦骨骼表示,将骨骼信息分解为关节位置、骨骼长度和人体运动,以便更好地利用这些信息。2) 提出半解析回归器,将逆运动学、形状拟合和运动细化相结合,实现更准确的人体网格重建。与现有方法相比,ARTS更有效地利用了骨骼信息,减少了对图像特征的依赖。

关键设计:骨骼估计和解耦模块的具体实现细节未知,论文重点在于半解析回归器。TIK模块使用逆运动学方法从关节位置估计初始姿势参数。BSF模块使用骨骼长度作为约束,拟合骨骼对齐的形状参数。MCR模块将人体运动表示与图像特征融合,通过一个神经网络进行细化。损失函数的设计细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ARTS在3DPW、MPI-INF-3DHP和Human3.6M等基准数据集上取得了显著的性能提升。具体数据未知,但论文强调ARTS在逐帧精度和时间一致性方面均优于现有最先进的方法。开源代码表明该方法具有实际应用价值。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏、动画制作、运动分析、智能监控等领域。通过准确地从视频中重建人体网格,可以实现更逼真的人机交互、更精确的运动捕捉和更智能的视频分析。未来,该技术有望在远程医疗、康复训练等领域发挥重要作用。

📄 摘要(原文)

Although existing video-based 3D human mesh recovery methods have made significant progress, simultaneously estimating human pose and shape from low-resolution image features limits their performance. These image features lack sufficient spatial information about the human body and contain various noises (e.g., background, lighting, and clothing), which often results in inaccurate pose and inconsistent motion. Inspired by the rapid advance in human pose estimation, we discover that compared to image features, skeletons inherently contain accurate human pose and motion. Therefore, we propose a novel semiAnalytical Regressor using disenTangled Skeletal representations for human mesh recovery from videos, called ARTS. Specifically, a skeleton estimation and disentanglement module is proposed to estimate the 3D skeletons from a video and decouple them into disentangled skeletal representations (i.e., joint position, bone length, and human motion). Then, to fully utilize these representations, we introduce a semi-analytical regressor to estimate the parameters of the human mesh model. The regressor consists of three modules: Temporal Inverse Kinematics (TIK), Bone-guided Shape Fitting (BSF), and Motion-Centric Refinement (MCR). TIK utilizes joint position to estimate initial pose parameters and BSF leverages bone length to regress bone-aligned shape parameters. Finally, MCR combines human motion representation with image features to refine the initial human model parameters. Extensive experiments demonstrate that our ARTS surpasses existing state-of-the-art video-based methods in both per-frame accuracy and temporal consistency on popular benchmarks: 3DPW, MPI-INF-3DHP, and Human3.6M. Code is available at https://github.com/TangTao-PKU/ARTS.