VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation

📄 arXiv: 2509.20322v2 📥 PDF

作者: Shaofeng Yin, Yanjie Ze, Hong-Xing Yu, C. Karen Liu, Jiajun Wu

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-09-24 (更新: 2025-11-13)

备注: Website: https://visualmimic.github.io


💡 一句话要点

VisualMimic:基于视觉的人形机器人运动跟踪与生成,实现零样本真实环境操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人形机器人 loco-manipulation 视觉伺服 sim-to-real 零样本迁移

📋 核心要点

  1. 现有的人形机器人操作方法依赖外部动捕系统或泛化能力不足,难以在复杂环境中实现自主操作。
  2. VisualMimic框架通过结合任务无关的关键点跟踪器和任务特定的高级策略,实现了视觉驱动的全身控制。
  3. 该方法在模拟环境中训练的策略能够零样本迁移到真实机器人,并在多种loco-manipulation任务和户外环境中表现出鲁棒性。

📝 摘要(中文)

本文提出VisualMimic,一个视觉sim-to-real框架,用于统一以自我为中心的视觉感知和人形机器人的全身控制。在非结构化环境中,人形机器人的loco-manipulation需要紧密结合这二者。现有方法要么依赖外部运动捕捉系统,要么无法泛化到不同的任务。VisualMimic结合了一个任务无关的低级关键点跟踪器(通过师生方案从人类运动数据中训练得到)和一个任务特定的高级策略(从视觉和本体感觉输入生成关键点命令)。为了确保训练的稳定性,我们向低级策略注入噪声,并使用人类运动统计数据来裁剪高级动作。VisualMimic实现了在模拟环境中训练的视觉运动策略到真实人形机器人的零样本迁移,完成了诸如箱子举起、推动、足球运球和踢球等各种loco-manipulation任务。除了受控的实验室环境外,我们的策略还可以稳健地泛化到户外环境。

🔬 方法详解

问题定义:现有的人形机器人loco-manipulation方法存在两个主要痛点:一是依赖昂贵且复杂的外部运动捕捉系统,限制了其应用场景;二是缺乏足够的泛化能力,难以适应不同的任务和环境变化。因此,如何实现仅依赖自身视觉感知,且能泛化到多种任务和真实环境的人形机器人全身控制是一个关键问题。

核心思路:VisualMimic的核心思路是将复杂的loco-manipulation任务分解为两个层次:低层次的关键点跟踪和高层次的策略生成。低层次的关键点跟踪器负责从视觉输入中提取关键信息,而高层次的策略则根据视觉和本体感觉信息生成关键点命令。通过这种分层结构,可以降低策略学习的难度,并提高策略的泛化能力。

技术框架:VisualMimic框架包含两个主要模块:低级关键点跟踪器和高级策略生成器。低级关键点跟踪器是一个任务无关的模块,使用师生学习的方式从人类运动数据中训练得到。高级策略生成器是一个任务特定的模块,使用强化学习算法进行训练。整个框架的流程是:首先,机器人通过摄像头获取视觉输入;然后,低级关键点跟踪器从视觉输入中提取关键点信息;接着,高级策略生成器根据关键点信息和本体感觉信息生成关键点命令;最后,机器人根据关键点命令执行相应的动作。

关键创新:VisualMimic的关键创新在于其分层控制结构和任务无关的关键点跟踪器。分层控制结构降低了策略学习的难度,提高了策略的泛化能力。任务无关的关键点跟踪器可以从人类运动数据中学习到通用的运动模式,从而减少了对特定任务的依赖。此外,该框架还通过噪声注入和动作裁剪等技术手段,提高了训练的稳定性和鲁棒性。

关键设计:在低级关键点跟踪器的训练中,使用了大量的合成人类运动数据,并通过师生学习的方式将知识从教师网络传递到学生网络。在高级策略生成器的训练中,使用了强化学习算法,并设计了合适的奖励函数来引导策略的学习。为了提高训练的稳定性,向低级策略注入了噪声,并使用人类运动统计数据来裁剪高级动作。具体的网络结构和参数设置在论文中有详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VisualMimic实现了在模拟环境中训练的视觉运动策略到真实人形机器人的零样本迁移,并在多种loco-manipulation任务(如箱子举起、推动、足球运球和踢球)和户外环境中表现出鲁棒性。虽然论文中没有给出具体的性能数据,但其零样本迁移能力和在真实环境中的鲁棒性是显著的亮点。

🎯 应用场景

VisualMimic具有广泛的应用前景,例如在家庭服务、物流搬运、灾难救援等领域。该技术可以使人形机器人能够在复杂和非结构化的环境中自主完成各种任务,从而提高工作效率和安全性。未来,该技术还可以应用于虚拟现实和增强现实等领域,为用户提供更加沉浸式的交互体验。

📄 摘要(原文)

Humanoid loco-manipulation in unstructured environments demands tight integration of egocentric perception and whole-body control. However, existing approaches either depend on external motion capture systems or fail to generalize across diverse tasks. We introduce VisualMimic, a visual sim-to-real framework that unifies egocentric vision with hierarchical whole-body control for humanoid robots. VisualMimic combines a task-agnostic low-level keypoint tracker -- trained from human motion data via a teacher-student scheme -- with a task-specific high-level policy that generates keypoint commands from visual and proprioceptive input. To ensure stable training, we inject noise into the low-level policy and clip high-level actions using human motion statistics. VisualMimic enables zero-shot transfer of visuomotor policies trained in simulation to real humanoid robots, accomplishing a wide range of loco-manipulation tasks such as box lifting, pushing, football dribbling, and kicking. Beyond controlled laboratory settings, our policies also generalize robustly to outdoor environments. Videos are available at: https://visualmimic.github.io .