DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos
作者: Juncheng Mu, Sizhe Yang, Yiming Bao, Hojin Bae, Tianming Wei, Linning Xu, Boyi Li, Huazhe Xu, Jiangmiao Pang
分类: cs.RO
发布日期: 2026-02-10
💡 一句话要点
DexImit:从单目人类视频学习灵巧双手动手操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion)
关键词: 灵巧操作 模仿学习 机器人学习 单目视频 数据生成
📋 核心要点
- 现有灵巧操作学习方法受限于真实世界数据收集的困难,导致数据稀缺,泛化能力不足。
- DexImit通过从单目人类视频中自动生成物理上合理的机器人数据,弥合了人手与机器人手之间的具身差距。
- 该方法无需额外信息,即可处理多种操作任务,包括工具使用、长时程任务和精细操作。
📝 摘要(中文)
由于灵巧手的数据收集成本高昂且劳动密集,数据稀缺从根本上限制了双手动手操作的泛化能力。人类操作视频作为操作知识的直接载体,为扩展机器人学习提供了巨大的潜力。然而,人类手和机器人灵巧手之间巨大的具身差距使得直接从人类视频进行预训练极具挑战性。为了弥合这一差距,并释放大规模人类操作视频数据的潜力,我们提出了DexImit,这是一个自动化的框架,可以将单目人类操作视频转换为物理上合理的机器人数据,而无需任何额外的信息。DexImit采用四阶段生成流程:(1)以接近度量尺度的比例重建任意视点的手-物交互;(2)执行子任务分解和双手调度;(3)合成与演示交互一致的机器人轨迹;(4)为零样本真实世界部署进行全面的数据增强。基于这些设计,DexImit能够基于人类视频(来自互联网或视频生成模型)生成大规模机器人数据。DexImit能够处理各种操作任务,包括工具使用(例如,切苹果)、长时程任务(例如,制作饮料)和精细操作(例如,堆叠杯子)。
🔬 方法详解
问题定义:现有机器人灵巧操作学习方法严重依赖于真实世界数据的收集,但灵巧手的控制复杂性使得数据收集成本高昂且效率低下。直接利用人类操作视频进行学习面临着人手与机器人手之间巨大的具身差距,导致模型难以泛化到机器人平台上。
核心思路:DexImit的核心思路是将单目人类操作视频转换为物理上合理的机器人数据,从而利用大规模人类操作视频数据来训练机器人灵巧操作策略。通过自动化的流程,弥合人手与机器人手之间的具身差距,实现从人类演示到机器人控制的知识迁移。
技术框架:DexImit采用四阶段生成流程:(1) 手-物交互重建:从任意视点的单目视频中重建具有接近度量尺度的手-物交互;(2) 子任务分解与双手调度:将复杂的操作任务分解为子任务,并进行双手的动作调度;(3) 机器人轨迹合成:根据重建的手-物交互和子任务调度,合成与演示交互一致的机器人轨迹;(4) 数据增强:进行全面的数据增强,以提高模型在真实世界中的泛化能力。
关键创新:DexImit的关键创新在于其完全自动化的数据生成流程,该流程无需任何额外信息即可将单目人类操作视频转换为可用于机器人学习的物理上合理的数据。这种方法能够有效利用大规模人类操作视频数据,克服了数据稀缺的问题。
关键设计:在手-物交互重建阶段,论文可能采用了基于深度学习的姿态估计和三维重建技术,以从单目视频中恢复手和物体的三维姿态和形状。在机器人轨迹合成阶段,可能使用了逆运动学和动力学优化等方法,以生成满足物理约束的机器人轨迹。数据增强策略可能包括随机噪声添加、视角变换、物体替换等。
🖼️ 关键图片
📊 实验亮点
DexImit能够从单目人类视频中生成大规模的机器人数据,并成功应用于多种操作任务,包括工具使用、长时程任务和精细操作。实验结果表明,基于DexImit生成的数据训练的机器人策略具有良好的泛化能力,能够在真实世界中实现零样本部署。具体的性能数据和对比基线未知。
🎯 应用场景
DexImit具有广泛的应用前景,可用于机器人自动化、智能制造、医疗康复等领域。例如,可以利用该方法训练机器人完成复杂的装配任务、精细的手术操作或个性化的康复训练。通过利用互联网上大量的操作视频,可以显著降低机器人学习的成本,加速机器人的智能化进程。
📄 摘要(原文)
Data scarcity fundamentally limits the generalization of bimanual dexterous manipulation, as real-world data collection for dexterous hands is expensive and labor-intensive. Human manipulation videos, as a direct carrier of manipulation knowledge, offer significant potential for scaling up robot learning. However, the substantial embodiment gap between human hands and robotic dexterous hands makes direct pretraining from human videos extremely challenging. To bridge this gap and unleash the potential of large-scale human manipulation video data, we propose DexImit, an automated framework that converts monocular human manipulation videos into physically plausible robot data, without any additional information. DexImit employs a four-stage generation pipeline: (1) reconstructing hand-object interactions from arbitrary viewpoints with near-metric scale; (2) performing subtask decomposition and bimanual scheduling; (3) synthesizing robot trajectories consistent with the demonstrated interactions; (4) comprehensive data augmentation for zero-shot real-world deployment. Building on these designs, DexImit can generate large-scale robot data based on human videos, either from the Internet or video generation models. DexImit is capable of handling diverse manipulation tasks, including tool use (e.g., cutting an apple), long-horizon tasks (e.g., making a beverage), and fine-grained manipulations (e.g., stacking cups).