PHUMA: Physically-Grounded Humanoid Locomotion Dataset
作者: Kyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo
分类: cs.RO
发布日期: 2025-10-30
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出PHUMA:一个物理约束的人形机器人运动数据集,提升运动模仿性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion)
关键词: 人形机器人 运动模仿 数据集 物理约束 运动控制
📋 核心要点
- 现有运动模仿方法依赖高质量但稀缺的运动捕捉数据,或易引入物理伪影的大规模互联网视频,限制了性能。
- PHUMA通过数据管理和物理约束重定向,利用大规模人类视频构建物理上可靠的运动数据集。
- 实验表明,使用PHUMA训练的策略在模仿未见运动和路径跟随任务中,显著优于Humanoid-X和AMASS。
📝 摘要(中文)
运动模仿是人形机器人运动的一个有前景的方法,它使智能体能够获得类似人类的行为。现有的方法通常依赖于高质量的运动捕捉数据集,如AMASS,但这些数据集稀缺且昂贵,限制了可扩展性和多样性。最近的研究试图通过转换大规模互联网视频来扩展数据收集,例如Humanoid-X。然而,它们经常引入物理伪影,如漂浮、穿透和滑步,这阻碍了稳定的模仿。为了解决这个问题,我们引入了PHUMA,一个物理约束的人形机器人运动数据集,它利用大规模的人类视频,同时通过仔细的数据管理和物理约束的重定向来解决物理伪影。PHUMA强制执行关节限制,确保地面接触,并消除滑步,从而产生大规模且物理上可靠的运动。我们在两组条件下评估了PHUMA:(i)模仿来自自记录测试视频的未见运动;(ii)仅使用骨盆引导的路径跟随。在这两种情况下,PHUMA训练的策略都优于Humanoid-X和AMASS,在模仿各种运动方面取得了显著的提升。
🔬 方法详解
问题定义:现有的人形机器人运动模仿方法面临数据质量和规模的挑战。高质量的运动捕捉数据集(如AMASS)数据量小且成本高昂,难以扩展。而利用互联网视频的方法(如Humanoid-X)虽然可以扩大数据规模,但容易引入物理不真实的伪影,例如穿透、漂浮和滑步,导致训练出的机器人策略不稳定。
核心思路:PHUMA的核心思路是在利用大规模人类视频数据的基础上,通过数据清洗和物理约束的重定向技术,生成物理上合理的人形机器人运动数据。通过强制执行关节限制、确保地面接触和消除滑步等手段,保证数据的物理可行性。
技术框架:PHUMA的数据生成流程主要包含以下几个阶段:1) 从大规模互联网视频中提取人体运动信息;2) 对提取的运动数据进行清洗,去除噪声和异常值;3) 对清洗后的数据进行物理约束的重定向,包括关节限制、地面接触和滑步消除;4) 将重定向后的数据作为训练数据,用于训练人形机器人的运动模仿策略。
关键创新:PHUMA的关键创新在于其物理约束的重定向技术,该技术能够在保证数据规模的同时,显著提高数据的物理真实性。与现有方法相比,PHUMA能够生成更稳定、更可靠的运动数据,从而提高人形机器人的运动模仿性能。
关键设计:PHUMA在物理约束重定向中,采用了多种技术手段。例如,使用优化方法来强制执行关节限制,避免机器人出现不自然的姿势。使用接触检测算法来确保机器人与地面保持接触,避免漂浮现象。使用足部速度控制算法来消除滑步,保证运动的稳定性。此外,PHUMA还采用了数据增强技术,进一步提高数据的多样性和泛化能力。
📊 实验亮点
实验结果表明,使用PHUMA训练的策略在模仿未见运动和路径跟随任务中,显著优于Humanoid-X和AMASS。在模仿未见运动任务中,PHUMA训练的策略能够更准确地模仿人类的运动姿态和运动轨迹。在路径跟随任务中,PHUMA训练的策略能够更稳定地跟随目标路径,并避免出现摔倒等问题。具体性能提升幅度未知,但论文强调了“significant gains”。
🎯 应用场景
PHUMA数据集可广泛应用于人形机器人的运动控制、运动规划和运动模仿等领域。通过使用PHUMA训练的策略,可以使人形机器人能够模仿人类的各种运动,例如行走、跑步、跳跃等。这对于开发具有更强适应性和智能性的人形机器人具有重要意义,例如在服务机器人、救援机器人和娱乐机器人等领域。
📄 摘要(原文)
Motion imitation is a promising approach for humanoid locomotion, enabling agents to acquire humanlike behaviors. Existing methods typically rely on high-quality motion capture datasets such as AMASS, but these are scarce and expensive, limiting scalability and diversity. Recent studies attempt to scale data collection by converting large-scale internet videos, exemplified by Humanoid-X. However, they often introduce physical artifacts such as floating, penetration, and foot skating, which hinder stable imitation. In response, we introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that leverages human video at scale, while addressing physical artifacts through careful data curation and physics-constrained retargeting. PHUMA enforces joint limits, ensures ground contact, and eliminates foot skating, producing motions that are both large-scale and physically reliable. We evaluated PHUMA in two sets of conditions: (i) imitation of unseen motion from self-recorded test videos and (ii) path following with pelvis-only guidance. In both cases, PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant gains in imitating diverse motions. The code is available at https://davian-robotics.github.io/PHUMA.