Mitty: Diffusion-based Human-to-Robot Video Generation
作者: Yiren Song, Cheng Liu, Weijia Mao, Mike Zheng Shou
分类: cs.CV
发布日期: 2025-12-19
💡 一句话要点
Mitty:提出基于扩散模型的Human2Robot视频生成方法,实现端到端机器人学习。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting)
关键词: Human2Robot视频生成 视频扩散模型 机器人学习 上下文学习 Transformer 双向注意力 数据合成
📋 核心要点
- 现有机器人学习方法依赖中间表示,导致信息损失和误差累积,影响视频的时序和视觉一致性。
- Mitty利用预训练视频扩散模型,将人类演示视频直接转化为机器人执行视频,无需中间抽象或动作标签。
- 通过自动合成流程生成高质量人-机器人数据对,缓解数据稀缺问题,实验证明Mitty具有优秀的泛化性能。
📝 摘要(中文)
本文提出Mitty,一种扩散Transformer,用于端到端的Human2Robot视频生成,实现视频上下文学习。现有方法依赖于关键点或轨迹等中间表示,引入信息损失和累积误差,损害了时间一致性和视觉一致性。Mitty建立在预训练的视频扩散模型之上,利用强大的视觉-时间先验,将人类演示转换为机器人执行视频,无需动作标签或中间抽象。演示视频被压缩成条件tokens,并通过扩散过程中的双向注意力与机器人去噪tokens融合。为了缓解配对数据稀缺问题,还开发了一种自动合成流程,从大型自我中心数据集中生成高质量的人-机器人对。在Human2Robot和EPIC-Kitchens上的实验表明,Mitty提供了最先进的结果,对未见环境的强大泛化能力,以及从人类观察中进行可扩展机器人学习的新见解。
🔬 方法详解
问题定义:现有Human2Robot视频生成方法依赖于关键点、轨迹等中间表示,这些中间表示不可避免地会造成信息损失,并且中间步骤的误差会累积,最终影响生成视频的时序一致性和视觉质量。此外,获取大量配对的人类演示和机器人执行视频数据成本高昂,限制了模型的泛化能力。
核心思路:Mitty的核心思路是利用预训练的视频扩散模型强大的视觉-时间先验知识,直接将人类演示视频转化为机器人执行视频,避免中间表示带来的信息损失和误差累积。通过将人类演示视频压缩成条件tokens,并与机器人去噪tokens融合,实现端到端的Human2Robot视频生成。同时,设计自动合成流程来扩充训练数据,提高模型的泛化能力。
技术框架:Mitty基于Diffusion Transformer架构,整体流程如下:1) 将人类演示视频通过编码器压缩成条件tokens;2) 将随机噪声初始化为机器人视频的tokens;3) 在扩散过程中,通过双向注意力机制将条件tokens和机器人去噪tokens融合;4) 通过解码器将去噪后的tokens解码成机器人执行视频。自动合成流程包括:1) 从大型自我中心数据集中提取人类动作片段;2) 根据人类动作片段生成对应的机器人动作片段;3) 将人类和机器人动作片段合成为配对的训练数据。
关键创新:Mitty的关键创新在于:1) 利用视频扩散模型进行Human2Robot视频生成,避免了中间表示带来的信息损失和误差累积;2) 提出了一种自动合成流程,可以从大型自我中心数据集中生成高质量的人-机器人配对数据,缓解了数据稀缺问题;3) 使用双向注意力机制融合人类演示和机器人去噪tokens,实现了更好的视频生成效果。
关键设计:Mitty使用预训练的视频扩散模型作为backbone,并在此基础上进行fine-tuning。双向注意力机制用于融合人类演示和机器人去噪tokens,其权重由query、key和value计算得到。自动合成流程中,使用动作识别模型从人类视频中提取动作标签,并根据动作标签生成对应的机器人动作。损失函数包括扩散模型的重建损失和对抗损失,用于提高生成视频的质量。
🖼️ 关键图片
📊 实验亮点
Mitty在Human2Robot和EPIC-Kitchens数据集上取得了state-of-the-art的结果,证明了其在Human2Robot视频生成方面的优越性能。实验结果表明,Mitty能够生成高质量、时序一致的机器人执行视频,并且具有很强的泛化能力,可以适应未见过的环境。与现有方法相比,Mitty在视频质量和泛化能力方面均有显著提升。
🎯 应用场景
Mitty在机器人学习领域具有广泛的应用前景,可以用于机器人技能学习、人机协作、自动化任务规划等。通过学习人类演示视频,机器人可以快速掌握新的技能,提高工作效率。此外,Mitty还可以用于生成虚拟机器人训练数据,降低机器人学习的成本和风险。未来,Mitty有望成为实现通用机器人学习的关键技术。
📄 摘要(原文)
Learning directly from human demonstration videos is a key milestone toward scalable and generalizable robot learning. Yet existing methods rely on intermediate representations such as keypoints or trajectories, introducing information loss and cumulative errors that harm temporal and visual consistency. We present Mitty, a Diffusion Transformer that enables video In-Context Learning for end-to-end Human2Robot video generation. Built on a pretrained video diffusion model, Mitty leverages strong visual-temporal priors to translate human demonstrations into robot-execution videos without action labels or intermediate abstractions. Demonstration videos are compressed into condition tokens and fused with robot denoising tokens through bidirectional attention during diffusion. To mitigate paired-data scarcity, we also develop an automatic synthesis pipeline that produces high-quality human-robot pairs from large egocentric datasets. Experiments on Human2Robot and EPIC-Kitchens show that Mitty delivers state-of-the-art results, strong generalization to unseen environments, and new insights for scalable robot learning from human observations.