ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning

📄 arXiv: 2510.05070v2 📥 PDF

作者: Siheng Zhao, Yanjie Ze, Yue Wang, C. Karen Liu, Pieter Abbeel, Guanya Shi, Rocky Duan

分类: cs.RO, cs.LG

发布日期: 2025-10-06 (更新: 2025-10-08)

备注: 9 pages, 8 figures


💡 一句话要点

ResMimic:通过残差学习实现从通用运动跟踪到人形机器人全身Loco-Manipulation

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人形机器人 全身控制 Loco-Manipulation 残差学习 运动跟踪

📋 核心要点

  1. 现有方法难以兼顾人形机器人的通用运动能力和精细操作能力,尤其是在Loco-Manipulation任务中。
  2. ResMimic采用两阶段残差学习框架,首先通过GMT策略生成类人运动,然后使用残差策略进行精细调整。
  3. 实验结果表明,ResMimic在任务成功率、训练效率和鲁棒性方面均优于现有方法,并在真实机器人上进行了验证。

📝 摘要(中文)

人形机器人全身Loco-Manipulation有望为日常服务和仓库任务带来变革性能力。虽然通用运动跟踪(GMT)的最新进展使人形机器人能够重现多样化的人类运动,但这些策略缺乏Loco-Manipulation所需的精度和对象感知能力。为此,我们引入ResMimic,这是一个两阶段残差学习框架,用于从人类运动数据中实现精确且富有表现力的人形机器人控制。首先,在大型纯人类运动数据上训练的GMT策略作为任务无关的基础,用于生成类人全身运动。然后,学习一个高效但精确的残差策略来细化GMT输出,以改善运动并结合对象交互。为了进一步促进高效训练,我们设计了(i)基于点云的对象跟踪奖励,以实现更平滑的优化,(ii)接触奖励,鼓励准确的人形机器人身体-对象交互,以及(iii)基于课程的虚拟对象控制器,以稳定早期训练。我们在模拟和真实的宇树G1人形机器人上评估了ResMimic。结果表明,与强大的基线相比,在任务成功率、训练效率和鲁棒性方面都有显著提高。

🔬 方法详解

问题定义:论文旨在解决人形机器人全身Loco-Manipulation任务中,现有方法难以同时实现通用运动能力和精细操作能力的问题。现有方法要么依赖于大量特定任务的数据,泛化性差;要么精度不足,无法完成复杂的对象交互任务。

核心思路:论文的核心思路是利用残差学习,将任务分解为两个阶段:首先,通过通用运动跟踪(GMT)策略学习人类的通用运动模式,作为基础运动;然后,学习一个残差策略,对基础运动进行精细调整,以适应特定的Loco-Manipulation任务。这种方法可以充分利用现有的海量人类运动数据,并提高训练效率。

技术框架:ResMimic框架包含两个主要阶段:1) GMT策略训练阶段:使用大规模人类运动数据训练一个通用的运动跟踪策略,该策略能够生成类人全身运动。2) 残差策略训练阶段:以GMT策略的输出作为输入,训练一个残差策略,该策略能够对GMT策略的输出进行精细调整,以实现精确的Loco-Manipulation。框架还包括点云对象跟踪奖励、接触奖励和基于课程的虚拟对象控制器,以提高训练效率和稳定性。

关键创新:论文的关键创新在于提出了两阶段残差学习框架,将通用运动学习和精细操作学习解耦。这种方法可以充分利用现有的海量人类运动数据,并提高训练效率。此外,论文还设计了点云对象跟踪奖励和接触奖励,以鼓励更平滑的优化和更准确的人形机器人身体-对象交互。

关键设计:论文设计了基于点云的对象跟踪奖励,以提供更密集的奖励信号,从而实现更平滑的优化。接触奖励被设计用于鼓励准确的人形机器人身体-对象交互。基于课程的虚拟对象控制器被用于稳定早期训练,避免出现不稳定的情况。残差策略的网络结构未知,损失函数细节未知,但强调了效率和精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ResMimic在模拟和真实宇树G1人形机器人上的实验结果表明,与强大的基线相比,ResMimic在任务成功率、训练效率和鲁棒性方面都有显著提高。具体性能数据未知,但强调了优于现有方法的显著提升。

🎯 应用场景

ResMimic技术可应用于各种人形机器人应用场景,例如:仓库自动化、家庭服务机器人、医疗辅助机器人等。该技术可以使人形机器人能够更自然、更高效地完成各种复杂的任务,从而提高生产效率和服务质量。未来,该技术有望在更多领域得到应用,例如:灾难救援、太空探索等。

📄 摘要(原文)

Humanoid whole-body loco-manipulation promises transformative capabilities for daily service and warehouse tasks. While recent advances in general motion tracking (GMT) have enabled humanoids to reproduce diverse human motions, these policies lack the precision and object awareness required for loco-manipulation. To this end, we introduce ResMimic, a two-stage residual learning framework for precise and expressive humanoid control from human motion data. First, a GMT policy, trained on large-scale human-only motion, serves as a task-agnostic base for generating human-like whole-body movements. An efficient but precise residual policy is then learned to refine the GMT outputs to improve locomotion and incorporate object interaction. To further facilitate efficient training, we design (i) a point-cloud-based object tracking reward for smoother optimization, (ii) a contact reward that encourages accurate humanoid body-object interactions, and (iii) a curriculum-based virtual object controller to stabilize early training. We evaluate ResMimic in both simulation and on a real Unitree G1 humanoid. Results show substantial gains in task success, training efficiency, and robustness over strong baselines. Videos are available at https://resmimic.github.io/ .