Pressure2Motion: Hierarchical Human Motion Reconstruction from Ground Pressure with Text Guidance
作者: Zhengxuan Li, Qinhui Yang, Yiyu Zhuang, Chuan Guo, Xinxin Zuo, Xiaoxiao Long, Yao Yao, Xun Cao, Qiu Shen, Hao Zhu
分类: cs.CV
发布日期: 2025-11-07 (更新: 2025-11-22)
💡 一句话要点
Pressure2Motion:提出一种基于地面压力和文本引导的分层人体运动重建算法。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体运动重建 地面压力 文本引导 扩散模型 运动捕捉
📋 核心要点
- 现有运动捕捉技术依赖复杂的光照、相机或可穿戴设备,存在成本高、隐私泄露等问题。
- Pressure2Motion利用压力垫和文本提示,通过双层特征提取和分层扩散模型,实现低成本、隐私保护的运动重建。
- 实验表明,Pressure2Motion能够生成高保真、物理上合理的运动,并在MPL基准测试中达到新的SOTA。
📝 摘要(中文)
本文提出了一种新颖的运动捕捉算法Pressure2Motion,该算法可以从地面压力序列和文本提示中重建人体运动。在推理时,Pressure2Motion仅需要一个压力垫,无需专门的照明设置、相机或可穿戴设备,使其适用于保护隐私、低光照和低成本的运动捕捉场景。由于压力信号相对于全身运动的不确定性,这项任务非常不适定。为了解决这个问题,我们引入了Pressure2Motion,这是一个生成模型,它利用压力特征作为输入,并利用文本提示作为高级指导约束来解决歧义。具体来说,我们的模型采用双层特征提取器来准确解释压力数据,然后是一个分层扩散模型,可以辨别大范围的运动轨迹和细微的姿势调整。来自压力序列的物理线索和来自描述性文本的语义指导都被用来精确地指导运动估计。据我们所知,Pressure2Motion是利用压力数据和语言先验进行运动重建的开创性工作,并且建立的MPL基准是这项新颖运动捕捉任务的第一个基准。实验表明,我们的方法生成了高保真、物理上合理的运动,为这项任务建立了新的最先进水平。代码和基准将在发布后公开。
🔬 方法详解
问题定义:论文旨在解决从地面压力序列和文本描述中重建人体全身运动的问题。现有方法要么依赖于昂贵的设备和复杂的环境设置,要么难以从单一的压力数据中准确推断出全身运动,尤其是在存在运动歧义的情况下。
核心思路:论文的核心思路是利用文本提示作为高级语义指导,结合压力数据提供的物理线索,通过生成模型来消除运动重建中的歧义性。压力数据提供运动的物理基础,而文本描述则提供运动的意图和上下文,两者结合可以更准确地重建全身运动。
技术框架:Pressure2Motion的整体框架包含以下几个主要模块:1) 双层特征提取器:用于从压力数据中提取多尺度的特征表示,捕捉不同层次的运动信息。2) 分层扩散模型:用于生成人体运动序列,该模型分为两个层级,分别负责生成粗略的运动轨迹和精细的姿势调整。3) 文本编码器:用于将文本提示编码为语义向量,作为扩散模型的条件输入。整个流程是,首先将压力数据和文本提示输入到各自的特征提取器中,然后将提取的特征输入到分层扩散模型中,最终生成人体运动序列。
关键创新:该论文的关键创新在于:1) 首次将压力数据和文本提示结合起来用于人体运动重建。2) 提出了双层特征提取器,能够更有效地从压力数据中提取运动信息。3) 设计了分层扩散模型,能够生成更自然、更逼真的人体运动。与现有方法相比,该方法无需昂贵的设备和复杂的环境设置,并且能够更好地处理运动歧义问题。
关键设计:双层特征提取器可能包含卷积神经网络和循环神经网络,用于捕捉压力数据的空间和时间信息。分层扩散模型可能采用U-Net结构,并使用文本编码向量作为条件输入。损失函数可能包括运动学损失、物理损失和对抗损失,以保证生成运动的真实性和物理合理性。具体的参数设置和网络结构细节需要在论文的实验部分查找。
🖼️ 关键图片
📊 实验亮点
Pressure2Motion在MPL基准测试中取得了显著的性能提升,相较于现有方法,在运动保真度和物理合理性方面均有明显改善。具体的数据指标(例如FID分数、运动学误差等)需要在论文中查找。该方法能够生成高保真、物理上合理的运动,为基于压力数据的运动捕捉任务建立了新的SOTA。
🎯 应用场景
Pressure2Motion在多个领域具有广泛的应用前景,例如:虚拟现实和增强现实中的低成本运动捕捉、游戏开发中的角色动画生成、医疗康复中的运动监测和评估、以及安全监控中的行为分析。该技术无需昂贵的设备和复杂的环境设置,使得运动捕捉更加便捷和普及,尤其适用于对隐私保护有要求的场景。
📄 摘要(原文)
We present Pressure2Motion, a novel motion capture algorithm that reconstructs human motion from a ground pressure sequence and text prompt. At inference time, Pressure2Motion requires only a pressure mat, eliminating the need for specialized lighting setups, cameras, or wearable devices, making it suitable for privacy-preserving, low-light, and low-cost motion capture scenarios. Such a task is severely ill-posed due to the indeterminacy of pressure signals with respect to full-body motion. To address this issue, we introduce Pressure2Motion, a generative model that leverages pressure features as input and utilizes a text prompt as a high-level guiding constraint to resolve ambiguities. Specifically, our model adopts a dual-level feature extractor to accurately interpret pressure data, followed by a hierarchical diffusion model that discerns broad-scale movement trajectories and subtle posture adjustments. Both the physical cues gained from the pressure sequence and the semantic guidance derived from descriptive texts are leveraged to guide the motion estimation with precision. To the best of our knowledge, Pressure2Motion is a pioneering work in leveraging both pressure data and linguistic priors for motion reconstruction, and the established MPL benchmark is the first benchmark for this novel motion capture task. Experiments show that our method generates high-fidelity, physically plausible motions, establishing a new state of the art for this task. The codes and benchmarks will be publicly released upon publication.