\textsc{Gen2Real}: Towards Demo-Free Dexterous Manipulation by Harnessing Generated Video

📄 arXiv: 2509.14178v1 📥 PDF

作者: Kai Ye, Yuhang Wu, Shuyuan Hu, Junliang Li, Meng Liu, Yongquan Chen, Rui Huang

分类: cs.RO

发布日期: 2025-09-16


💡 一句话要点

Gen2Real:利用生成视频实现免示教的灵巧操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 灵巧操作 视频生成 示教学习 物理感知 机器人控制

📋 核心要点

  1. 灵巧操作面临缺乏大量人工示教数据的难题,限制了机器人学习的效率和泛化能力。
  2. Gen2Real利用生成视频替代人工示教,通过视频生成、轨迹优化和示教学习三个阶段,实现机器人灵巧操作技能的学习。
  3. 实验表明,该方法仅使用生成视频即可在模拟环境中达到77.3%的抓取成功率,并在真实机器人上成功执行抓取任务。

📝 摘要(中文)

本文提出Gen2Real,通过生成视频替代昂贵的人工示教,驱动机器人学习灵巧操作技能。该方法结合了示教生成、轨迹优化和示教学习三个阶段:示教生成利用视频生成技术和姿态深度估计,生成手-物轨迹;轨迹优化使用物理感知交互优化模型(PIOM)保证物理一致性;示教学习将人类动作迁移到机器人手上,并通过基于锚点的残差近端策略优化(PPO)策略稳定控制。仅使用生成的视频,学习到的策略在模拟环境中实现了77.3%的抓取成功率,并在真实机器人上展示了连贯的执行效果。消融实验验证了每个组件的贡献,并展示了使用自然语言直接指定任务的能力,突出了Gen2Real在将想象视频中的抓取技能推广到真实世界执行中的灵活性和鲁棒性。

🔬 方法详解

问题定义:灵巧操作任务需要大量的人工示教数据,而收集这些数据成本高昂且耗时。现有的方法依赖于人工示教或强化学习,前者难以扩展,后者训练不稳定且需要大量的环境交互。因此,如何降低对人工示教的依赖,并提高机器人学习灵巧操作技能的效率和泛化能力是一个关键问题。

核心思路:Gen2Real的核心思路是利用生成视频来模拟人工示教,从而避免了人工示教数据收集的难题。通过视频生成技术,可以生成各种手-物交互的视频,并从中提取出手-物的轨迹信息。然后,通过轨迹优化和示教学习,将这些轨迹信息转化为机器人可以执行的动作策略。这种方法的核心在于将视觉信息转化为可执行的机器人动作,从而实现免示教的灵巧操作。

技术框架:Gen2Real的整体框架包含三个主要阶段:1) 示教生成:利用视频生成模型生成手-物交互的视频,并使用姿态和深度估计技术提取手和物体的轨迹信息。2) 轨迹优化:使用物理感知交互优化模型(PIOM)对生成的轨迹进行优化,保证其物理一致性,例如避免物体穿透等。3) 示教学习:将优化后的轨迹作为示教,使用基于锚点的残差近端策略优化(PPO)算法训练机器人控制策略,并将人类动作迁移到机器人手上。

关键创新:Gen2Real的关键创新在于利用生成视频作为示教数据,从而避免了对人工示教的依赖。此外,PIOM模型能够保证生成轨迹的物理一致性,提高了学习策略的鲁棒性。基于锚点的残差PPO算法能够稳定控制机器人的动作,并实现人类动作的迁移。

关键设计:PIOM模型的设计考虑了物理约束,例如碰撞避免和摩擦力等。损失函数的设计包括轨迹跟踪损失、物理约束损失和正则化损失。基于锚点的残差PPO算法使用锚点来引导策略的学习,并使用残差网络来学习策略的微调。视频生成模型可以使用现有的生成模型,例如GAN或VAE。

📊 实验亮点

Gen2Real在模拟环境中实现了77.3%的抓取成功率,显著优于传统的强化学习方法。在真实机器人上的实验表明,该方法能够成功执行抓取任务,并具有较好的鲁棒性。消融实验验证了PIOM模型和基于锚点的残差PPO算法的有效性。此外,该方法还能够通过自然语言指定任务,展示了其灵活性和泛化能力。

🎯 应用场景

Gen2Real具有广泛的应用前景,例如在自动化装配、医疗手术、家庭服务等领域。它可以降低机器人部署的成本和难度,提高机器人的智能化水平。未来,该方法可以扩展到更复杂的灵巧操作任务,例如多物体操作、工具使用等,并可以与其他技术相结合,例如强化学习、模仿学习等,进一步提高机器人的性能。

📄 摘要(原文)

Dexterous manipulation remains a challenging robotics problem, largely due to the difficulty of collecting extensive human demonstrations for learning. In this paper, we introduce \textsc{Gen2Real}, which replaces costly human demos with one generated video and drives robot skill from it: it combines demonstration generation that leverages video generation with pose and depth estimation to yield hand-object trajectories, trajectory optimization that uses Physics-aware Interaction Optimization Model (PIOM) to impose physics consistency, and demonstration learning that retargets human motions to a robot hand and stabilizes control with an anchor-based residual Proximal Policy Optimization (PPO) policy. Using only generated videos, the learned policy achieves a 77.3\% success rate on grasping tasks in simulation and demonstrates coherent executions on a real robot. We also conduct ablation studies to validate the contribution of each component and demonstrate the ability to directly specify tasks using natural language, highlighting the flexibility and robustness of \textsc{Gen2Real} in generalizing grasping skills from imagined videos to real-world execution.