PHUMA: Physically-Grounded Humanoid Locomotion Dataset

作者: Kyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo

分类: cs.RO

发布日期: 2025-10-30

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出PHUMA：一个物理约束的人形机器人运动数据集，提升运动模仿性能。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱四：生成式动作 (Generative Motion)

关键词: 人形机器人 运动模仿 数据集 物理约束 运动控制

📋 核心要点

现有运动模仿方法依赖高质量但稀缺的运动捕捉数据，或易引入物理伪影的大规模互联网视频，限制了性能。
PHUMA通过数据管理和物理约束重定向，利用大规模人类视频构建物理上可靠的运动数据集。
实验表明，使用PHUMA训练的策略在模仿未见运动和路径跟随任务中，显著优于Humanoid-X和AMASS。

📝 摘要（中文）

运动模仿是人形机器人运动的一个有前景的方法，它使智能体能够获得类似人类的行为。现有的方法通常依赖于高质量的运动捕捉数据集，如AMASS，但这些数据集稀缺且昂贵，限制了可扩展性和多样性。最近的研究试图通过转换大规模互联网视频来扩展数据收集，例如Humanoid-X。然而，它们经常引入物理伪影，如漂浮、穿透和滑步，这阻碍了稳定的模仿。为了解决这个问题，我们引入了PHUMA，一个物理约束的人形机器人运动数据集，它利用大规模的人类视频，同时通过仔细的数据管理和物理约束的重定向来解决物理伪影。PHUMA强制执行关节限制，确保地面接触，并消除滑步，从而产生大规模且物理上可靠的运动。我们在两组条件下评估了PHUMA：（i）模仿来自自记录测试视频的未见运动；（ii）仅使用骨盆引导的路径跟随。在这两种情况下，PHUMA训练的策略都优于Humanoid-X和AMASS，在模仿各种运动方面取得了显著的提升。

🔬 方法详解

问题定义：现有的人形机器人运动模仿方法面临数据质量和规模的挑战。高质量的运动捕捉数据集（如AMASS）数据量小且成本高昂，难以扩展。而利用互联网视频的方法（如Humanoid-X）虽然可以扩大数据规模，但容易引入物理不真实的伪影，例如穿透、漂浮和滑步，导致训练出的机器人策略不稳定。

核心思路：PHUMA的核心思路是在利用大规模人类视频数据的基础上，通过数据清洗和物理约束的重定向技术，生成物理上合理的人形机器人运动数据。通过强制执行关节限制、确保地面接触和消除滑步等手段，保证数据的物理可行性。

技术框架：PHUMA的数据生成流程主要包含以下几个阶段：1) 从大规模互联网视频中提取人体运动信息；2) 对提取的运动数据进行清洗，去除噪声和异常值；3) 对清洗后的数据进行物理约束的重定向，包括关节限制、地面接触和滑步消除；4) 将重定向后的数据作为训练数据，用于训练人形机器人的运动模仿策略。

关键创新：PHUMA的关键创新在于其物理约束的重定向技术，该技术能够在保证数据规模的同时，显著提高数据的物理真实性。与现有方法相比，PHUMA能够生成更稳定、更可靠的运动数据，从而提高人形机器人的运动模仿性能。

关键设计：PHUMA在物理约束重定向中，采用了多种技术手段。例如，使用优化方法来强制执行关节限制，避免机器人出现不自然的姿势。使用接触检测算法来确保机器人与地面保持接触，避免漂浮现象。使用足部速度控制算法来消除滑步，保证运动的稳定性。此外，PHUMA还采用了数据增强技术，进一步提高数据的多样性和泛化能力。

📊 实验亮点

实验结果表明，使用PHUMA训练的策略在模仿未见运动和路径跟随任务中，显著优于Humanoid-X和AMASS。在模仿未见运动任务中，PHUMA训练的策略能够更准确地模仿人类的运动姿态和运动轨迹。在路径跟随任务中，PHUMA训练的策略能够更稳定地跟随目标路径，并避免出现摔倒等问题。具体性能提升幅度未知，但论文强调了“significant gains”。

🎯 应用场景

PHUMA数据集可广泛应用于人形机器人的运动控制、运动规划和运动模仿等领域。通过使用PHUMA训练的策略，可以使人形机器人能够模仿人类的各种运动，例如行走、跑步、跳跃等。这对于开发具有更强适应性和智能性的人形机器人具有重要意义，例如在服务机器人、救援机器人和娱乐机器人等领域。

📄 摘要（原文）

Motion imitation is a promising approach for humanoid locomotion, enabling agents to acquire humanlike behaviors. Existing methods typically rely on high-quality motion capture datasets such as AMASS, but these are scarce and expensive, limiting scalability and diversity. Recent studies attempt to scale data collection by converting large-scale internet videos, exemplified by Humanoid-X. However, they often introduce physical artifacts such as floating, penetration, and foot skating, which hinder stable imitation. In response, we introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that leverages human video at scale, while addressing physical artifacts through careful data curation and physics-constrained retargeting. PHUMA enforces joint limits, ensures ground contact, and eliminates foot skating, producing motions that are both large-scale and physically reliable. We evaluated PHUMA in two sets of conditions: (i) imitation of unseen motion from self-recorded test videos and (ii) path following with pelvis-only guidance. In both cases, PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant gains in imitating diverse motions. The code is available at https://davian-robotics.github.io/PHUMA.

PHUMA: Physically-Grounded Humanoid Locomotion Dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册