OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
作者: Lujie Yang, Xiaoyu Huang, Zhen Wu, Angjoo Kanazawa, Pieter Abbeel, Carmelo Sferrazza, C. Karen Liu, Rocky Duan, Guanya Shi
分类: cs.RO, cs.AI, cs.LG, eess.SY
发布日期: 2025-09-30 (更新: 2025-10-08)
备注: Project website: https://omniretarget.github.io
💡 一句话要点
OmniRetarget:交互保持的人形机器人全身运动操作与场景交互数据生成。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人形机器人 运动重定向 交互保持 数据生成 强化学习
📋 核心要点
- 现有动作重定向方法难以弥合人与机器人之间的具身差距,导致足部滑动和穿透等物理上不合理的现象。
- OmniRetarget基于交互网格建模智能体与环境的交互关系,通过拉普拉斯形变最小化和运动学约束,生成可行轨迹。
- 实验表明,OmniRetarget生成的数据能够训练强化学习策略,使人形机器人在复杂环境中执行长时程的运动操作技能。
📝 摘要(中文)
本文提出OmniRetarget,一个交互保持的数据生成引擎,用于解决人形机器人复杂技能学习中,人类动作重定向到机器人时存在的具身差距和交互缺失问题。OmniRetarget基于交互网格,显式建模并保持智能体、地形和操作对象之间的关键空间和接触关系。通过最小化人类和机器人网格之间的拉普拉斯形变,并强制执行运动学约束,生成运动学上可行的轨迹。此外,保持任务相关的交互能够实现高效的数据增强,从单个演示扩展到不同的机器人形态、地形和对象配置。实验表明,OmniRetarget生成的轨迹在运动学约束满足和接触保持方面优于现有方法,并成功训练了本体感受强化学习策略,在Unitree G1人形机器人上执行长时程的跑酷和运动操作技能。
🔬 方法详解
问题定义:现有的人形机器人技能学习方法依赖于将人类动作重定向到机器人作为运动学参考,但由于人类和机器人之间存在显著的具身差距,重定向后的动作往往存在物理上不合理的伪影,例如足部滑动和穿透。更重要的是,常见的重定向方法忽略了人类与物体和环境之间丰富的交互,而这些交互对于表达性的运动和运动操作至关重要。
核心思路:OmniRetarget的核心思路是通过显式地建模和保持智能体、地形和操作对象之间的关键空间和接触关系来解决上述问题。它使用一个交互网格来表示这些关系,并在重定向过程中尽可能地保持这些关系不变。这样可以确保生成的机器人动作在物理上是可行的,并且能够保留原始人类动作中的关键交互信息。
技术框架:OmniRetarget的整体流程包括以下几个主要步骤:1) 使用交互网格显式建模人类动作中的智能体、地形和操作对象之间的空间和接触关系。2) 通过最小化人类和机器人网格之间的拉普拉斯形变,将人类动作重定向到机器人。3) 在重定向过程中,强制执行运动学约束,以确保生成的机器人动作在运动学上是可行的。4) 通过保持任务相关的交互,实现高效的数据增强,从而可以从单个演示扩展到不同的机器人形态、地形和对象配置。
关键创新:OmniRetarget最重要的技术创新点在于它使用交互网格来显式地建模和保持智能体与环境之间的交互关系。与传统的重定向方法相比,OmniRetarget能够更好地保留原始人类动作中的关键交互信息,从而生成更逼真、更有效的机器人动作。
关键设计:OmniRetarget的关键设计包括:1) 使用拉普拉斯形变最小化来保证重定向后的机器人动作与原始人类动作在形状上尽可能相似。2) 使用运动学约束来保证重定向后的机器人动作在运动学上是可行的。3) 使用任务相关的交互保持损失函数来保证重定向后的机器人动作能够保留原始人类动作中的关键交互信息。具体的损失函数权重和约束条件需要根据具体的任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OmniRetarget生成的轨迹在运动学约束满足和接触保持方面优于广泛使用的基线方法。使用OmniRetarget生成的数据训练的强化学习策略,成功地在Unitree G1人形机器人上执行了长时程(长达30秒)的跑酷和运动操作技能。仅使用5个奖励项和简单的领域随机化,无需任何学习课程,即可完成所有任务。
🎯 应用场景
OmniRetarget具有广泛的应用前景,可用于生成高质量的机器人训练数据,从而提高机器人在复杂环境中的运动操作能力。例如,可以应用于人形机器人的跑酷、物体操作、家庭服务等领域。通过高效的数据增强,可以降低机器人学习的成本,加速机器人在实际场景中的部署。
📄 摘要(原文)
A dominant paradigm for teaching humanoid robots complex skills is to retarget human motions as kinematic references to train reinforcement learning (RL) policies. However, existing retargeting pipelines often struggle with the significant embodiment gap between humans and robots, producing physically implausible artifacts like foot-skating and penetration. More importantly, common retargeting methods neglect the rich human-object and human-environment interactions essential for expressive locomotion and loco-manipulation. To address this, we introduce OmniRetarget, an interaction-preserving data generation engine based on an interaction mesh that explicitly models and preserves the crucial spatial and contact relationships between an agent, the terrain, and manipulated objects. By minimizing the Laplacian deformation between the human and robot meshes while enforcing kinematic constraints, OmniRetarget generates kinematically feasible trajectories. Moreover, preserving task-relevant interactions enables efficient data augmentation, from a single demonstration to different robot embodiments, terrains, and object configurations. We comprehensively evaluate OmniRetarget by retargeting motions from OMOMO, LAFAN1, and our in-house MoCap datasets, generating over 8-hour trajectories that achieve better kinematic constraint satisfaction and contact preservation than widely used baselines. Such high-quality data enables proprioceptive RL policies to successfully execute long-horizon (up to 30 seconds) parkour and loco-manipulation skills on a Unitree G1 humanoid, trained with only 5 reward terms and simple domain randomization shared by all tasks, without any learning curriculum.