ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video
作者: Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li
分类: cs.RO, cs.AI
发布日期: 2026-03-10
💡 一句话要点
ZeroWBC:直接从人类第一视角视频学习自然的人形机器人全身控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人形机器人控制 视觉运动学习 第一视角视频 视觉-语言模型 运动重定向 全身控制 模仿学习
📋 核心要点
- 现有的人形机器人全身控制方法依赖于刚性运动模式和昂贵的遥操作数据,缺乏执行坐下或踢腿等自然行为的通用性。
- ZeroWBC的核心思想是从人类第一视角视频中学习,通过视觉-语言模型预测人体运动,并将其迁移到机器人控制,无需机器人遥操作数据。
- 在Unitree G1机器人上的实验表明,ZeroWBC在运动自然性和通用性方面超越了现有方法,验证了其在人形机器人全身控制方面的有效性。
📝 摘要(中文)
本文提出ZeroWBC框架,旨在解决人形机器人与场景交互中全身控制的自然性和通用性难题。现有方法受限于刚性运动模式和昂贵的遥操作数据收集。ZeroWBC直接从人类第一视角视频中学习自然的人形机器人视觉运动控制策略,无需大规模机器人遥操作数据,实现自然的人形机器人场景交互控制。该方法首先微调视觉-语言模型(VLM),根据文本指令和第一视角视觉上下文预测未来的人体全身运动。然后,这些生成的运动被重新映射到真实机器人关节,并通过鲁棒的通用运动跟踪策略执行,实现人形机器人全身控制。在Unitree G1人形机器人上的实验表明,该方法在运动自然性和通用性方面优于基线方法,为通用人形机器人全身控制提供了一种可扩展且高效的范例,消除了遥操作数据收集的开销。
🔬 方法详解
问题定义:现有的人形机器人全身控制方法,例如基于优化的控制或模仿学习,通常需要大量的机器人遥操作数据,成本高昂且耗时。此外,这些方法生成的运动往往较为僵硬,缺乏人类运动的自然性和多样性。因此,如何以更高效、更自然的方式实现人形机器人的全身控制是一个关键问题。
核心思路:ZeroWBC的核心思路是利用人类的第一视角视频作为训练数据,通过视觉-语言模型学习人类的运动模式,然后将这些运动模式迁移到机器人身上。这种方法避免了直接在机器人上进行数据采集的困难,并且可以学习到更加自然和多样的运动。
技术框架:ZeroWBC框架主要包含两个阶段:1) 运动预测阶段:使用视觉-语言模型(VLM),以第一视角视觉输入和文本指令为条件,预测未来的人体全身运动。具体来说,VLM被微调以学习从视觉和语言信息到人体运动的映射。2) 运动重定向和执行阶段:将预测的人体运动重新映射到机器人的关节空间,并使用一个鲁棒的通用运动跟踪策略来控制机器人执行这些运动。
关键创新:ZeroWBC的关键创新在于直接从人类第一视角视频中学习机器人控制策略,无需任何机器人遥操作数据。这极大地降低了数据采集的成本,并使得学习更加自然和多样的运动成为可能。此外,该方法还利用了视觉-语言模型强大的视觉理解和运动预测能力。
关键设计:在运动预测阶段,论文使用了预训练的视觉-语言模型,并对其进行了微调,以适应人体运动预测的任务。损失函数的设计旨在最小化预测运动与真实运动之间的差异。在运动重定向阶段,论文设计了一个鲁棒的运动跟踪控制器,以确保机器人能够准确地执行预测的运动。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
ZeroWBC在Unitree G1人形机器人上进行了实验,结果表明,该方法在运动自然性和通用性方面显著优于基线方法。例如,机器人可以成功地执行坐下、站立、踢腿等多种复杂的全身运动。与需要大量遥操作数据的传统方法相比,ZeroWBC无需任何机器人数据,大大降低了成本。
🎯 应用场景
ZeroWBC具有广泛的应用前景,例如:家庭服务机器人可以学习执行各种家务任务,如清洁、整理等;工业机器人可以学习进行精细的操作,如装配、焊接等;在灾难救援场景中,机器人可以学习在复杂环境中进行搜索和救援。该研究为人形机器人在复杂环境中的自主行为提供了新的解决方案。
📄 摘要(原文)
Achieving versatile and naturalistic whole-body control for humanoid robot scene-interaction remains a significant challenge. While some recent works have demonstrated autonomous humanoid interactive control, they are constrained to rigid locomotion patterns and expensive teleoperation data collection, lacking the versatility to execute more human-like natural behaviors such as sitting or kicking. Furthermore, acquiring the necessary real robot teleoperation data is prohibitively expensive and time-consuming. To address these limitations, we introduce ZeroWBC, a novel framework that learns a natural humanoid visuomotor control policy directly from human egocentric videos, eliminating the need for large-scale robot teleoperation data and enabling natural humanoid robot scene-interaction control. Specifically, our approach first fine-tunes a Vision-Language Model (VLM) to predict future whole-body human motions based on text instructions and egocentric visual context, then these generated motions are retargeted to real robot joints and executed via our robust general motion tracking policy for humanoid whole-body control. Extensive experiments on the Unitree G1 humanoid robot demonstrate that our method outperforms baseline approaches in motion naturalness and versatility, successfully establishing a pipeline that eliminates teleoperation data collection overhead for whole-body humanoid control, offering a scalable and efficient paradigm for general humanoid whole-body control.