MimicDroid: In-Context Learning for Humanoid Robot Manipulation from Human Play Videos
作者: Rutav Shah, Shuijing Liu, Qi Wang, Zhenyu Jiang, Sateesh Kumar, Mingyo Seo, Roberto Martín-Martín, Yuke Zhu
分类: cs.RO
发布日期: 2025-09-11
备注: 11 pages, 9 figures, 5 tables
💡 一句话要点
MimicDroid:利用人类游戏视频进行类人机器人操作的上下文学习
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 类人机器人 上下文学习 人类游戏视频 操作技能 轨迹预测
📋 核心要点
- 现有ICL方法依赖于昂贵的遥操作数据,限制了其在机器人操作任务中的可扩展性。
- MimicDroid利用人类游戏视频作为训练数据,通过轨迹对预测实现上下文学习能力。
- MimicDroid在模拟和真实机器人实验中均表现出色,显著提升了少样本操作任务的成功率。
📝 摘要(中文)
本文旨在使类人机器人能够仅通过少量视频示例高效地解决新的操作任务。上下文学习(ICL)因其测试时的数据效率和快速适应性,成为实现此目标的一个有前景的框架。然而,当前的ICL方法依赖于劳动密集型的遥操作数据进行训练,这限制了可扩展性。我们提出使用人类游戏视频——人们与其环境自由交互的连续、未标记视频——作为一种可扩展且多样化的训练数据来源。我们介绍了MimicDroid,它使类人机器人能够使用人类游戏视频作为唯一的训练数据来执行ICL。MimicDroid提取具有相似操作行为的轨迹对,并训练策略以预测一个轨迹的动作,以另一个轨迹为条件。通过这个过程,该模型获得了在测试时适应新对象和环境的ICL能力。为了弥合具身差距,MimicDroid首先将从RGB视频估计的人类手腕姿势重新定位到类人机器人,利用运动学相似性。它还在训练期间应用随机补丁掩码,以减少对人类特定线索的过度拟合,并提高对视觉差异的鲁棒性。为了评估类人机器人的少样本学习,我们引入了一个具有递增泛化难度级别的开源模拟基准。MimicDroid优于最先进的方法,并在现实世界中实现了近两倍的成功率。其他材料可在 ut-austin-rpl.github.io/MimicDroid 上找到。
🔬 方法详解
问题定义:论文旨在解决类人机器人操作任务中,现有上下文学习方法依赖于大量人工标注或遥操作数据的问题。这些数据获取成本高昂,限制了ICL在机器人领域的应用范围和可扩展性。现有方法难以利用大规模、低成本的人类行为数据,例如人类游戏视频,进行有效的策略学习。
核心思路:论文的核心思路是利用人类游戏视频作为训练数据,通过学习轨迹之间的相似性,使机器人能够进行上下文学习。具体来说,模型学习预测一个轨迹的动作,以另一个具有相似操作行为的轨迹为条件。这种方式允许机器人从人类的演示中学习操作技能,而无需显式的动作标签或遥操作指导。
技术框架:MimicDroid的整体框架包含以下几个主要阶段:1) 数据收集:收集大量人类游戏视频。2) 轨迹提取与匹配:从视频中提取轨迹,并根据操作行为的相似性进行轨迹对的匹配。3) 姿态重定向:将人类手腕姿势重定向到类人机器人。4) 模型训练:训练一个策略模型,该模型能够预测一个轨迹的动作,以另一个轨迹为条件。5) 测试:在新的对象和环境中评估机器人的操作能力。
关键创新:论文的关键创新在于:1) 利用人类游戏视频作为训练数据,显著降低了数据获取成本。2) 提出了一种基于轨迹对预测的上下文学习方法,使机器人能够从无标签的人类演示中学习操作技能。3) 引入了随机补丁掩码,提高了模型对视觉差异的鲁棒性,并减少了对人类特定线索的过度拟合。
关键设计:在姿态重定向方面,论文利用了人类和类人机器人在运动学上的相似性,将人类手腕姿势映射到机器人的关节空间。在模型训练方面,使用了Transformer架构来建模轨迹之间的依赖关系。损失函数设计为预测动作的交叉熵损失。随机补丁掩码的比例和位置是超参数,需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
MimicDroid在模拟环境中取得了显著的性能提升,在多个操作任务上优于现有最先进的方法。在真实机器人实验中,MimicDroid的成功率接近现有方法的两倍,证明了其在实际应用中的有效性。开源的模拟基准为类人机器人少样本学习的研究提供了有力的支持。
🎯 应用场景
MimicDroid具有广泛的应用前景,例如家庭服务机器人、工业自动化和医疗辅助机器人等。通过利用大量的人类行为数据,机器人可以快速学习新的操作技能,适应不同的环境和对象。该研究有助于降低机器人部署和维护的成本,提高机器人的智能化水平和服务能力,加速机器人技术在各行各业的普及。
📄 摘要(原文)
We aim to enable humanoid robots to efficiently solve new manipulation tasks from a few video examples. In-context learning (ICL) is a promising framework for achieving this goal due to its test-time data efficiency and rapid adaptability. However, current ICL methods rely on labor-intensive teleoperated data for training, which restricts scalability. We propose using human play videos -- continuous, unlabeled videos of people interacting freely with their environment -- as a scalable and diverse training data source. We introduce MimicDroid, which enables humanoids to perform ICL using human play videos as the only training data. MimicDroid extracts trajectory pairs with similar manipulation behaviors and trains the policy to predict the actions of one trajectory conditioned on the other. Through this process, the model acquired ICL capabilities for adapting to novel objects and environments at test time. To bridge the embodiment gap, MimicDroid first retargets human wrist poses estimated from RGB videos to the humanoid, leveraging kinematic similarity. It also applies random patch masking during training to reduce overfitting to human-specific cues and improve robustness to visual differences. To evaluate few-shot learning for humanoids, we introduce an open-source simulation benchmark with increasing levels of generalization difficulty. MimicDroid outperformed state-of-the-art methods and achieved nearly twofold higher success rates in the real world. Additional materials can be found on: ut-austin-rpl.github.io/MimicDroid