ReActor: Reinforcement Learning for Physics-Aware Motion Retargeting
作者: David Müller, Agon Serifi, Sammy Christen, Ruben Grandia, Espen Knoop, Moritz Bächer
分类: cs.RO, cs.GR, cs.LG
发布日期: 2026-05-07
备注: SIGGRAPH 2026
DOI: 10.1145/3811378
💡 一句话要点
ReActor:基于强化学习的物理感知运动重定向方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting)
关键词: 运动重定向 强化学习 物理仿真 机器人控制 双层优化
📋 核心要点
- 现有运动重定向方法常导致物理不一致,阻碍机器人模仿学习,例如足部滑动和自碰撞。
- 提出双层优化框架,联合优化运动重定向和强化学习策略,保证运动的物理可行性。
- 实验表明,该方法在模拟和真实机器人上,能将人类运动有效重定向到不同形态的机器人。
📝 摘要(中文)
将人类运动学参考动作重定向到机器人形态仍然是一个巨大的挑战。现有方法经常产生物理不一致性,例如足部滑动、自碰撞或动态不可行的运动,这阻碍了下游的模仿学习。我们提出了一个双层优化框架,该框架联合调整参考运动以适应机器人的形态,同时使用强化学习训练跟踪策略。为了使优化易于处理,我们推导了上层损失的近似梯度。我们的框架只需要一组稀疏的语义刚体对应关系,并通过识别参数化的最佳值来消除手动调整的需要,该参数化具有足够的表达能力来保持不同形态的特征运动。此外,通过将重定向直接与物理模拟集成,我们产生了物理上合理的运动,从而促进了鲁棒的模仿学习。我们在模拟和硬件上验证了我们的方法,展示了对与人类形态显着不同的形态(包括重定向到四足动物)的具有挑战性的运动。
🔬 方法详解
问题定义:现有运动重定向方法在将人类运动迁移到机器人时,常常忽略物理约束,导致机器人运动不自然、不稳定,甚至无法执行。这些方法需要大量手动调整,且难以泛化到不同形态的机器人上。因此,如何自动、高效地生成物理上可行的机器人运动是一个关键问题。
核心思路:论文的核心思路是将运动重定向问题建模为一个双层优化问题。上层优化目标是使重定向后的运动尽可能接近参考运动,同时满足物理约束;下层优化目标是训练一个强化学习策略,使机器人能够跟踪重定向后的运动。通过联合优化这两个目标,可以生成既自然又物理可行的机器人运动。
技术框架:该框架包含两个主要模块:运动重定向模块和强化学习模块。运动重定向模块负责将人类参考运动映射到机器人的关节空间,并进行物理约束优化。强化学习模块则利用重定向后的运动作为目标,训练一个策略网络,使机器人能够稳定地跟踪这些运动。整个框架采用双层优化结构,通过近似梯度方法进行求解。
关键创新:该方法的主要创新在于将运动重定向和强化学习相结合,形成一个端到端的优化框架。通过这种方式,可以显式地考虑物理约束,并利用强化学习的优势来提高运动的鲁棒性和适应性。此外,该方法只需要少量语义对应关系,避免了繁琐的手动调整。
关键设计:运动重定向模块使用参数化的运动表示,并通过优化参数来最小化重定向后的运动与参考运动之间的差异,同时施加物理约束,如避免自碰撞和足部滑动。强化学习模块使用Actor-Critic算法,其中Actor网络输出机器人的关节力矩,Critic网络评估当前状态的价值。损失函数包括跟踪误差、动作惩罚和物理约束惩罚。
🖼️ 关键图片
📊 实验亮点
该方法在模拟和真实机器人上进行了验证,结果表明,该方法能够有效地将人类运动重定向到不同形态的机器人上,包括四足机器人。与现有方法相比,该方法生成的运动更加自然、稳定,且具有更好的物理可行性。例如,在四足机器人运动重定向任务中,该方法能够生成避免足部滑动和身体碰撞的运动。
🎯 应用场景
该研究成果可应用于各种机器人运动控制场景,例如人形机器人运动模仿、四足机器人地形适应、以及工业机器人的复杂操作任务。通过自动生成物理可行的机器人运动,可以降低机器人开发的难度,提高机器人的智能化水平,并拓展机器人的应用范围。
📄 摘要(原文)
Retargeting human kinematic reference motion onto a robot's morphology remains a formidable challenge. Existing methods often produce physical inconsistencies, such as foot sliding, self-collisions, or dynamically infeasible motions, which hinder downstream imitation learning. We propose a bilevel optimization framework that jointly adapts reference motions to a robot's morphology while training a tracking policy using reinforcement learning. To make the optimization tractable, we derive an approximate gradient for the upper-level loss. Our framework requires only a sparse set of semantic rigid-body correspondences and eliminates the need for manual tuning by identifying optimal values for a parameterization expressive enough to preserve characteristic motion across different embodiments. Moreover, by integrating retargeting directly with physics simulation, we produce physically plausible motions that facilitate robust imitation learning. We validate our method in simulation and on hardware, demonstrating challenging motions for morphologies that differ significantly from a human, including retargeting onto a quadruped.