H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

📄 arXiv: 2512.09406v1 📥 PDF

作者: Hai Ci, Xiaokang Liu, Pei Yang, Yiren Song, Mike Zheng Shou

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-12-10

备注: 13 pages, 6 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出H2R-Grounder,实现无需配对数据的物理可信人机交互视频转换。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 视频生成 机器人学习 具身智能 视频转换 扩散模型 人机交互 无监督学习

📋 核心要点

  1. 现有机器人学习方法依赖大量机器人数据,成本高昂,而直接利用人类视频进行学习面临具身差距的挑战。
  2. H2R-Grounder通过图像修复和视觉提示,将人类和机器人视频转换到统一的表示空间,弥合具身差距。
  3. 该方法在视频扩散模型基础上进行微调,生成运动一致且物理可信的机器人操作视频,效果显著优于基线。

📝 摘要(中文)

本文提出了一种视频到视频的转换框架,可以将普通的人-物交互视频转换为运动一致、物理可信的机器人操作视频,从而使机器人能够从日常人类视频中学习操作技能,无需繁琐的机器人数据收集。该方法不需要任何配对的人-机器人视频进行训练,只需要一组未配对的机器人视频,易于扩展。通过在训练视频中对机器人手臂进行图像修复以获得干净的背景,并叠加一个简单的视觉提示(指示夹具位置和方向的标记和箭头),引入了一种可转移的表示来弥合具身差距,从而调节生成模型将机器人手臂重新插入到场景中。在测试时,对人类视频应用相同的过程(修复人并叠加人类姿势提示),并生成模仿人类动作的高质量机器人视频。通过上下文学习的方式对SOTA视频扩散模型(Wan 2.2)进行微调,以确保时间一致性并利用其丰富的先验知识。实验结果表明,与基线方法相比,该方法实现了更真实和物理可信的机器人运动,为从无标签人类视频中扩展机器人学习提供了一个有希望的方向。

🔬 方法详解

问题定义:现有机器人学习方法需要大量机器人数据,收集成本高。利用人类视频进行学习,存在人类与机器人之间的具身差距,导致机器人难以准确模仿人类动作,生成不真实的交互视频。

核心思路:通过视频到视频的转换,将人类交互视频转换为机器人操作视频。核心在于弥合人类和机器人之间的具身差距,使得机器人能够理解并模仿人类的动作。通过可转移的表示学习,将人类和机器人的动作映射到统一的空间,从而实现动作的迁移。

技术框架:H2R-Grounder框架主要包含以下几个阶段:1) 数据预处理:对机器人视频进行处理,通过图像修复去除机器人手臂,并添加视觉提示(标记和箭头)指示夹具的位置和方向。2) 模型训练:利用预处理后的机器人视频,训练一个视频扩散模型,使其能够根据视觉提示生成机器人手臂。3) 人类视频转换:对人类视频进行处理,去除人类,并添加人类姿势提示。4) 视频生成:利用训练好的视频扩散模型,根据人类姿势提示生成对应的机器人操作视频。

关键创新:该方法的核心创新在于提出了一种可转移的表示学习方法,通过图像修复和视觉提示,将人类和机器人的动作映射到统一的空间,从而弥合了具身差距。此外,该方法还利用了视频扩散模型强大的生成能力,生成高质量的机器人操作视频。该方法无需配对的人-机器人视频进行训练,只需要未配对的机器人视频,降低了数据收集的成本。

关键设计:1) 使用Wan 2.2作为基础视频扩散模型,并进行微调,以保证生成视频的时间一致性。2) 通过上下文学习的方式进行微调,利用模型丰富的先验知识。3) 使用图像修复技术去除视频中的干扰因素,并添加视觉提示,引导模型生成期望的动作。4) 损失函数的设计需要保证生成视频的真实性和物理可信性,例如可以使用对抗损失和物理约束损失。

📊 实验亮点

实验结果表明,H2R-Grounder生成的机器人操作视频在真实性和物理可信性方面显著优于基线方法。通过定性和定量评估,证明了该方法在弥合具身差距和生成高质量机器人视频方面的有效性。具体性能数据未知,但论文强调了相比基线方法的显著提升。

🎯 应用场景

该研究成果可应用于机器人自动化、远程操作、以及机器人辅助教学等领域。通过学习人类的操作视频,机器人可以快速掌握各种技能,从而在制造业、医疗、服务等行业发挥更大的作用。该技术还可以用于生成虚拟机器人操作视频,用于培训和演示。

📄 摘要(原文)

Robots that learn manipulation skills from everyday human videos could acquire broad capabilities without tedious robot data collection. We propose a video-to-video translation framework that converts ordinary human-object interaction videos into motion-consistent robot manipulation videos with realistic, physically grounded interactions. Our approach does not require any paired human-robot videos for training only a set of unpaired robot videos, making the system easy to scale. We introduce a transferable representation that bridges the embodiment gap: by inpainting the robot arm in training videos to obtain a clean background and overlaying a simple visual cue (a marker and arrow indicating the gripper's position and orientation), we can condition a generative model to insert the robot arm back into the scene. At test time, we apply the same process to human videos (inpainting the person and overlaying human pose cues) and generate high-quality robot videos that mimic the human's actions. We fine-tune a SOTA video diffusion model (Wan 2.2) in an in-context learning manner to ensure temporal coherence and leveraging of its rich prior knowledge. Empirical results demonstrate that our approach achieves significantly more realistic and grounded robot motions compared to baselines, pointing to a promising direction for scaling up robot learning from unlabeled human videos. Project page: https://showlab.github.io/H2R-Grounder/