ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

📄 arXiv: 2509.19454 📥 PDF

作者: Jason Chen, I-Chun Arthur Liu, Gaurav Sukhatme, Daniel Seita

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2026-04-06


💡 一句话要点

ROPA:用于RGB-D双臂操作数据增强的合成机器人姿态生成方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 数据增强 模仿学习 RGB-D图像 双臂机器人

📋 核心要点

  1. 现有双臂操作模仿学习方法依赖大量真实数据,但数据收集成本高昂,限制了其可扩展性。
  2. ROPA通过微调Stable Diffusion生成合成的RGB-D图像和对应的动作标签,实现数据增强,降低数据收集成本。
  3. 实验结果表明,ROPA在模拟和真实环境中均优于基线方法,验证了其在双臂操作数据增强方面的有效性。

📝 摘要(中文)

本文提出了一种用于RGB-D双臂操作数据增强的合成机器人姿态生成方法(ROPA)。通过模仿学习训练鲁棒的双臂操作策略需要覆盖广泛机器人姿态、接触和场景上下文的演示数据。然而,收集多样且精确的真实世界演示数据成本高昂且耗时,阻碍了可扩展性。以往工作主要集中在使用RGB输入的手眼(腕部相机)设置的数据增强,或者生成没有配对动作的新图像。ROPA通过微调Stable Diffusion来合成新的机器人姿态的第三人称RGB和RGB-D观测,同时生成相应的关节空间动作标签,并采用约束优化来通过适当的夹爪-物体接触约束来强制执行双臂场景中的物理一致性。在5个模拟任务和3个真实世界任务上的评估结果表明,ROPA优于基线方法和消融实验,展示了其在眼到手双臂操作中可扩展的RGB和RGB-D数据增强的潜力。

🔬 方法详解

问题定义:现有双臂操作模仿学习方法需要大量真实世界数据,而收集这些数据非常昂贵且耗时。已有的数据增强方法主要集中在手眼相机设置或生成无动作标签的新图像,缺乏针对眼到手(第三人称视角)RGB-D双臂操作场景的数据增强方法。因此,如何高效地生成带有精确动作标签的RGB-D数据,以提升双臂操作策略的训练效果,是一个亟待解决的问题。

核心思路:ROPA的核心思路是利用生成模型(Stable Diffusion)生成新的机器人姿态的RGB-D图像,并同时生成对应的动作标签。通过约束优化,保证生成的机器人姿态和动作在物理上是可行的,即满足夹爪与物体之间的接触约束。这种方法可以有效地扩展训练数据集,提高模型的泛化能力。

技术框架:ROPA包含以下几个主要模块:1) 图像生成模块:使用微调后的Stable Diffusion模型,根据给定的机器人姿态生成对应的RGB-D图像。2) 动作标签生成模块:根据生成的机器人姿态,计算出对应的关节空间动作标签。3) 约束优化模块:通过约束优化,保证生成的机器人姿态和动作满足物理约束,例如夹爪与物体之间的接触约束。整体流程是,首先随机生成一些机器人姿态,然后使用图像生成模块生成对应的RGB-D图像,再使用动作标签生成模块生成对应的动作标签,最后使用约束优化模块对生成的姿态和动作进行优化,得到最终的增强数据。

关键创新:ROPA的关键创新在于:1) 将Stable Diffusion应用于机器人姿态的RGB-D图像生成,能够生成高质量的合成图像。2) 同时生成图像和对应的动作标签,避免了手动标注的成本。3) 引入约束优化来保证生成数据的物理可行性,提高了数据的质量。

关键设计:ROPA的关键设计包括:1) Stable Diffusion的微调策略:使用真实数据对Stable Diffusion进行微调,使其能够生成更逼真的机器人场景图像。2) 约束优化中的接触约束:定义了夹爪与物体之间的接触约束,保证生成的机器人姿态能够成功抓取物体。3) 损失函数的设计:设计了合适的损失函数,用于训练Stable Diffusion模型和优化机器人姿态。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ROPA在5个模拟任务和3个真实世界任务上进行了评估,结果表明ROPA优于基线方法和消融实验。在模拟环境中,ROPA在所有任务上都取得了显著的性能提升。在真实环境中,ROPA也表现出良好的泛化能力,能够有效地提高机器人的操作成功率。具体提升幅度未知,但论文强调了ROPA的优越性。

🎯 应用场景

ROPA可应用于各种需要双臂操作的机器人任务中,例如装配、拆卸、抓取、放置等。通过数据增强,可以显著减少对真实数据的依赖,降低训练成本,并提高机器人的泛化能力和鲁棒性。该方法在工业自动化、医疗机器人、家庭服务机器人等领域具有广泛的应用前景。

📄 摘要(原文)

Training robust bimanual manipulation policies via imitation learning requires demonstration data with broad coverage over robot poses, contacts, and scene contexts. However, collecting diverse and precise real-world demonstrations is costly and time-consuming, which hinders scalability. Prior works have addressed this with data augmentation, typically for either eye-in-hand (wrist camera) setups with RGB inputs or for generating novel images without paired actions, leaving augmentation for eye-to-hand (third-person) RGB-D training with new action labels less explored. In this paper, we propose Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation (ROPA), an offline imitation learning data augmentation method that fine-tunes Stable Diffusion to synthesize third-person RGB and RGB-D observations of novel robot poses. Our approach simultaneously generates corresponding joint-space action labels while employing constrained optimization to enforce physical consistency through appropriate gripper-to-object contact constraints in bimanual scenarios. We evaluate our method on 5 simulated and 3 real-world tasks. Our results across 2625 simulation trials and 300 real-world trials demonstrate that ROPA outperforms baselines and ablations, showing its potential for scalable RGB and RGB-D data augmentation in eye-to-hand bimanual manipulation. Our project website is available at:this https URL.