PHUMA: Physically-Grounded Humanoid Locomotion Dataset

📄 arXiv: 2510.26236v1 📥 PDF

作者: Kyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo

分类: cs.RO

发布日期: 2025-10-30

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出PHUMA:一个物理约束的人形机器人运动数据集,提升运动模仿性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion)

关键词: 人形机器人 运动模仿 数据集 物理约束 运动控制

📋 核心要点

  1. 现有运动模仿方法依赖高质量但稀缺的运动捕捉数据,或从互联网视频转换数据,但后者常引入物理伪影。
  2. PHUMA通过数据管理和物理约束重定向,利用大规模人类视频构建物理约束的人形机器人运动数据集。
  3. 实验表明,使用PHUMA训练的策略在模仿未见运动和路径跟随任务中,性能优于Humanoid-X和AMASS。

📝 摘要(中文)

运动模仿是人形机器人运动的一个有前景的方法,它使智能体能够获得类人的行为。现有的方法通常依赖于高质量的运动捕捉数据集,如AMASS,但这些数据集稀缺且昂贵,限制了可扩展性和多样性。最近的研究试图通过转换大规模互联网视频来扩展数据收集,例如Humanoid-X。然而,它们经常引入物理伪影,如漂浮、穿透和滑步,这阻碍了稳定的模仿。为了解决这个问题,我们引入了PHUMA,一个物理约束的人形机器人运动数据集,它利用大规模的人类视频,同时通过仔细的数据管理和物理约束的重定向来解决物理伪影。PHUMA强制执行关节限制,确保地面接触,并消除滑步,从而产生大规模且物理上可靠的运动。我们在两组条件下评估了PHUMA:(i)模仿来自自记录测试视频的未见运动;(ii)仅用骨盆引导进行路径跟随。在这两种情况下,PHUMA训练的策略都优于Humanoid-X和AMASS,在模仿各种运动方面取得了显著的提升。

🔬 方法详解

问题定义:现有的人形机器人运动模仿方法面临数据规模和物理真实性之间的权衡。高质量的运动捕捉数据(如AMASS)规模有限且成本高昂,而从互联网视频生成的数据(如Humanoid-X)则存在物理伪影,例如穿透、漂浮和滑步,这些伪影会严重影响训练出的策略的稳定性和真实性。因此,如何构建一个大规模且物理上可靠的人形机器人运动数据集是一个关键问题。

核心思路:PHUMA的核心思路是利用大规模的人类视频数据,并通过仔细的数据管理和物理约束的重定向来解决物理伪影问题。通过强制执行关节限制、确保地面接触和消除滑步,PHUMA旨在生成既具有大规模,又具有物理可靠性的运动数据。这种方法旨在克服现有数据集的局限性,从而提高运动模仿任务的性能。

技术框架:PHUMA的数据生成流程主要包含以下几个阶段:1) 从大规模人类视频中提取人体姿态信息;2) 对提取的姿态信息进行物理约束的重定向,包括关节限制、地面接触和滑步消除;3) 将重定向后的姿态信息转换为人形机器人的运动数据。整个流程旨在确保生成的数据在物理上是可行的,并且能够用于训练稳定的人形机器人运动策略。

关键创新:PHUMA的关键创新在于其物理约束的重定向方法,该方法能够有效地消除从互联网视频中提取的运动数据中存在的物理伪影。通过强制执行关节限制、确保地面接触和消除滑步,PHUMA能够生成物理上可靠的运动数据,从而提高运动模仿任务的性能。与现有方法相比,PHUMA在数据规模和物理真实性之间取得了更好的平衡。

关键设计:PHUMA的关键设计包括:1) 关节限制的强制执行,确保生成的运动数据符合人形机器人的关节运动范围;2) 地面接触的约束,确保人形机器人的脚部始终与地面接触,避免漂浮现象;3) 滑步消除,通过优化脚部轨迹,消除滑步现象,提高运动的真实性。具体的参数设置和优化算法细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

PHUMA数据集在模仿未见运动和路径跟随任务中表现出色。实验结果表明,使用PHUMA训练的策略在模仿各种运动方面显著优于Humanoid-X和AMASS。具体的性能提升数据未在摘要中明确给出,属于未知信息。

🎯 应用场景

PHUMA数据集可广泛应用于人形机器人的运动控制、运动规划和运动模仿等领域。它能够帮助研究人员训练出更加稳定、自然和多样化的人形机器人运动策略,从而推动人形机器人在复杂环境中的应用,例如搜救、医疗和家庭服务等。

📄 摘要(原文)

Motion imitation is a promising approach for humanoid locomotion, enabling agents to acquire humanlike behaviors. Existing methods typically rely on high-quality motion capture datasets such as AMASS, but these are scarce and expensive, limiting scalability and diversity. Recent studies attempt to scale data collection by converting large-scale internet videos, exemplified by Humanoid-X. However, they often introduce physical artifacts such as floating, penetration, and foot skating, which hinder stable imitation. In response, we introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that leverages human video at scale, while addressing physical artifacts through careful data curation and physics-constrained retargeting. PHUMA enforces joint limits, ensures ground contact, and eliminates foot skating, producing motions that are both large-scale and physically reliable. We evaluated PHUMA in two sets of conditions: (i) imitation of unseen motion from self-recorded test videos and (ii) path following with pelvis-only guidance. In both cases, PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant gains in imitating diverse motions. The code is available at https://davian-robotics.github.io/PHUMA.