World Models Can Leverage Human Videos for Dexterous Manipulation
作者: Raktim Gautam Goswami, Amir Bar, David Fan, Tsung-Yen Yang, Gaoyue Zhou, Prashanth Krishnamurthy, Michael Rabbat, Farshad Khorrami, Yann LeCun
分类: cs.RO, cs.AI, cs.CV
发布日期: 2025-12-15
💡 一句话要点
提出DexWM,利用人类视频提升灵巧操作世界模型的预测能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 灵巧操作 世界模型 人类视频 手部一致性 零样本泛化
📋 核心要点
- 灵巧操作任务复杂,现有方法难以有效建模手部动作与环境交互的细微关系。
- DexWM通过在大量人类视频数据上训练世界模型,并引入手部一致性损失,提升模型对手部动作的理解和预测能力。
- 实验表明,DexWM在预测精度和零样本泛化能力上均优于现有方法,尤其是在灵巧操作任务中表现突出。
📝 摘要(中文)
灵巧操作极具挑战性,因为它需要理解细微的手部动作如何通过与物体的接触来影响环境。本文提出了一种灵巧操作世界模型DexWM,该模型可以预测在过去状态和灵巧动作条件下,环境的下一个潜在状态。为了克服灵巧操作数据集的稀缺性,DexWM在超过900小时的人类和非灵巧机器人视频上进行训练。为了实现精细的灵巧性,研究发现仅预测视觉特征是不够的;因此,引入了一种辅助的手部一致性损失,以保证手部配置的准确性。DexWM优于以往基于文本、导航和全身动作的世界模型,实现了对未来状态更准确的预测。在配备Allegro夹具的Franka Panda机械臂上部署时,DexWM还展示了对未见过的操作技能的强大零样本泛化能力,在抓取、放置和到达任务中,平均优于Diffusion Policy 50%以上。
🔬 方法详解
问题定义:灵巧操作任务需要精确理解手部动作与环境的交互,现有方法难以有效建模这种细微关系,导致预测精度不足,泛化能力受限。同时,灵巧操作数据集稀缺,限制了模型的训练效果。
核心思路:利用人类视频数据蕴含的丰富灵巧操作信息,训练世界模型,使其能够学习到更准确的手部动作与环境交互关系。同时,通过引入手部一致性损失,约束模型预测的手部配置,提高预测精度。
技术框架:DexWM采用变分自编码器(VAE)结构,将视频帧编码为潜在状态,并使用循环神经网络(RNN)预测下一个潜在状态。模型输入包括过去的状态和动作,输出为预测的下一个状态。整个框架包含视觉编码器、状态预测器和手部一致性模块。
关键创新:主要创新在于利用大规模人类视频数据进行训练,并引入手部一致性损失。前者解决了数据稀缺问题,后者提高了模型对手部动作的建模精度。与以往方法相比,DexWM更注重手部动作的建模,从而在灵巧操作任务中表现更佳。
关键设计:手部一致性损失通过预测手部关键点的位置,并与真实手部关键点进行对比,从而约束模型预测的手部配置。具体而言,使用预训练的手部姿态估计模型提取手部关键点,然后计算预测关键点和真实关键点之间的均方误差作为损失函数。此外,模型使用了Adam优化器,学习率设置为1e-4,批量大小为32。
🖼️ 关键图片
📊 实验亮点
DexWM在抓取、放置和到达任务中,平均优于Diffusion Policy 50%以上,展示了强大的零样本泛化能力。此外,DexWM在预测未来状态的准确性方面也优于以往基于文本、导航和全身动作的世界模型,证明了其在灵巧操作任务中的优越性。
🎯 应用场景
该研究成果可应用于机器人灵巧操作、虚拟现实、人机交互等领域。例如,可以利用该模型训练机器人完成复杂的装配、抓取等任务,提高机器人的自动化水平。在虚拟现实中,可以模拟真实的手部动作,增强用户的沉浸感。在人机交互中,可以实现更自然、更流畅的人机交互方式。
📄 摘要(原文)
Dexterous manipulation is challenging because it requires understanding how subtle hand motion influences the environment through contact with objects. We introduce DexWM, a Dexterous Manipulation World Model that predicts the next latent state of the environment conditioned on past states and dexterous actions. To overcome the scarcity of dexterous manipulation datasets, DexWM is trained on over 900 hours of human and non-dexterous robot videos. To enable fine-grained dexterity, we find that predicting visual features alone is insufficient; therefore, we introduce an auxiliary hand consistency loss that enforces accurate hand configurations. DexWM outperforms prior world models conditioned on text, navigation, and full-body actions, achieving more accurate predictions of future states. DexWM also demonstrates strong zero-shot generalization to unseen manipulation skills when deployed on a Franka Panda arm equipped with an Allegro gripper, outperforming Diffusion Policy by over 50% on average in grasping, placing, and reaching tasks.