MotionPRO: Exploring the Role of Pressure in Human MoCap and Beyond
作者: Shenghao Ren, Yi Lu, Jiayi Huang, Jiayi Zhao, He Zhang, Tao Yu, Qiu Shen, Xun Cao
分类: cs.CV
发布日期: 2025-04-07
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
MotionPRO:探索压力在人体动作捕捉中的作用,提升物理合理性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体动作捕捉 压力传感器 多模态融合 具身人工智能 姿态估计
📋 核心要点
- 现有动作捕捉方法缺乏物理合理性,导致虚拟人和机器人控制出现诸多问题。
- 利用人体与环境交互产生的压力信息,辅助动作捕捉,提升物理真实性。
- 构建包含压力、RGB和光学数据的大规模数据集MotionPRO,并验证了压力信息在姿态估计中的有效性。
📝 摘要(中文)
现有的人体动作捕捉(MoCap)方法大多关注视觉相似性,而忽略了物理合理性。这导致下游任务,如驱动3D场景中的虚拟人或现实世界中的人形机器人,出现时间漂移和抖动、空间滑动和穿透以及全局轨迹精度差等问题。本文从人体与物理世界交互的角度重新审视人体MoCap,探索压力的作用。首先,构建了一个大规模的人体运动捕捉数据集MotionPRO,包含压力、RGB和光学传感器数据,涵盖70名志愿者执行的400种运动,共计1240万个姿势帧。其次,通过两个具有挑战性的任务检验了压力信号的必要性和有效性:(1)仅基于压力的姿势和轨迹估计:提出了一个包含小核解码器和长短期注意力模块的网络,证明压力可以提供准确的全局轨迹和合理的下半身姿势。(2)融合压力和RGB的姿势和轨迹估计:施加沿相机轴的正交相似性和沿垂直轴的全身接触约束,以增强交叉注意力策略,从而融合压力和RGB特征图。实验表明,将压力与RGB特征融合不仅显著提高了客观指标的性能,而且可以合理地驱动3D场景中的虚拟人(SMPL)。此外,证明了结合物理感知使人形机器人能够执行更精确和稳定的动作,这对具身人工智能的发展非常有益。
🔬 方法详解
问题定义:现有的人体动作捕捉方法主要依赖视觉信息,忽略了人体与环境的物理交互,导致捕捉到的动作在物理上不合理,例如出现穿透、滑动等现象。这使得下游任务,如虚拟人控制和机器人控制,难以获得稳定和自然的表现。因此,需要一种能够捕捉物理合理性的人体动作捕捉方法。
核心思路:论文的核心思路是利用人体与环境交互产生的压力信息来辅助动作捕捉。压力信息能够反映人体与地面的接触情况,从而约束人体运动的物理合理性。通过融合视觉信息和压力信息,可以获得更准确、更真实的动作捕捉结果。论文认为压力信息是现有视觉主导的动作捕捉方法的重要补充。
技术框架:MotionPRO的整体框架包含两个主要部分:1) 基于压力的姿势和轨迹估计;2) 融合压力和RGB的姿势和轨迹估计。对于仅基于压力的估计,使用一个包含小核解码器和长短期注意力模块的网络。对于融合压力和RGB的估计,使用交叉注意力机制融合两种模态的特征,并施加正交相似性和全身接触约束。
关键创新:论文的关键创新在于:1) 构建了包含压力信息的大规模人体动作捕捉数据集MotionPRO;2) 提出了利用压力信息辅助动作捕捉的方法,并证明了其有效性;3) 提出了基于小核解码器和长短期注意力模块的压力姿态估计网络。
关键设计:在融合压力和RGB特征时,论文设计了正交相似性损失和全身接触损失。正交相似性损失约束RGB图像的预测结果与真实图像在相机坐标系下的投影一致。全身接触损失约束预测的人体姿态与压力传感器数据在垂直方向上保持一致的接触状态。此外,论文还使用了长短期注意力模块来捕捉压力序列中的时间依赖关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,仅使用压力信息即可实现较为准确的全局轨迹和下半身姿势估计。融合压力和RGB信息后,姿势估计的性能得到显著提升,并且能够生成更符合物理规律的虚拟人动作。此外,将该方法应用于人形机器人控制,可以实现更精确和稳定的动作。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏、机器人控制等领域。通过提供更真实、更自然的动作捕捉数据,可以提升虚拟人的交互体验,增强机器人的运动能力,并促进具身人工智能的发展。例如,可以用于训练更智能的家用机器人,使其能够更好地与人类进行交互。
📄 摘要(原文)
Existing human Motion Capture (MoCap) methods mostly focus on the visual similarity while neglecting the physical plausibility. As a result, downstream tasks such as driving virtual human in 3D scene or humanoid robots in real world suffer from issues such as timing drift and jitter, spatial problems like sliding and penetration, and poor global trajectory accuracy. In this paper, we revisit human MoCap from the perspective of interaction between human body and physical world by exploring the role of pressure. Firstly, we construct a large-scale human Motion capture dataset with Pressure, RGB and Optical sensors (named MotionPRO), which comprises 70 volunteers performing 400 types of motion, encompassing a total of 12.4M pose frames. Secondly, we examine both the necessity and effectiveness of the pressure signal through two challenging tasks: (1) pose and trajectory estimation based solely on pressure: We propose a network that incorporates a small kernel decoder and a long-short-term attention module, and proof that pressure could provide accurate global trajectory and plausible lower body pose. (2) pose and trajectory estimation by fusing pressure and RGB: We impose constraints on orthographic similarity along the camera axis and whole-body contact along the vertical axis to enhance the cross-attention strategy to fuse pressure and RGB feature maps. Experiments demonstrate that fusing pressure with RGB features not only significantly improves performance in terms of objective metrics, but also plausibly drives virtual humans (SMPL) in 3D scene. Furthermore, we demonstrate that incorporating physical perception enables humanoid robots to perform more precise and stable actions, which is highly beneficial for the development of embodied artificial intelligence. Project page is available at: https://nju-cite-mocaphumanoid.github.io/MotionPRO/