ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

📄 arXiv: 2509.19454v1 📥 PDF

作者: Jason Chen, I-Chun Arthur Liu, Gaurav Sukhatme, Daniel Seita

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2025-09-23

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

ROPA:用于RGB-D双臂操作数据增强的合成机器人姿态生成

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 数据增强 模仿学习 RGB-D 双臂机器人 Stable Diffusion 合成数据

📋 核心要点

  1. 模仿学习训练鲁棒的双臂操作策略需要覆盖广泛机器人姿态、接触和场景上下文的演示数据,而收集这些数据成本高昂。
  2. ROPA通过微调Stable Diffusion,合成新的机器人姿态的RGB和RGB-D图像,并生成对应的动作标签,同时保证双臂操作的物理一致性。
  3. 在模拟和真实世界任务上的实验表明,ROPA优于基线方法,验证了其在眼外视角双臂操作数据增强方面的有效性。

📝 摘要(中文)

本文提出了一种名为ROPA(Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation)的离线模仿学习数据增强方法,该方法通过微调Stable Diffusion来合成新的机器人姿态的第三人称RGB和RGB-D观测。该方法在生成对应关节空间动作标签的同时,采用约束优化来通过适当的夹爪-物体接触约束在双臂场景中强制执行物理一致性。我们在5个模拟任务和3个真实世界任务上评估了我们的方法。结果表明,在2625次模拟试验和300次真实世界试验中,ROPA优于基线方法和消融实验,显示了其在眼外视角双臂操作中可扩展的RGB和RGB-D数据增强的潜力。

🔬 方法详解

问题定义:论文旨在解决在眼外视角(第三人称)RGB-D双臂操作任务中,模仿学习训练数据不足的问题。现有方法要么侧重于眼内视角(腕部相机)的RGB输入,要么生成没有配对动作的新图像,缺乏针对眼外视角RGB-D数据和新动作标签的数据增强方法。收集真实世界数据成本高昂,限制了策略的可扩展性。

核心思路:论文的核心思路是利用Stable Diffusion等生成模型,合成具有多样化机器人姿态的RGB-D图像,并同时生成对应的动作标签。通过约束优化,保证合成图像中双臂操作的物理一致性,从而实现有效的数据增强。

技术框架:ROPA方法主要包含以下几个阶段:1) 使用Stable Diffusion生成新的机器人姿态的RGB图像;2) 利用深度信息生成对应的RGB-D图像;3) 通过逆运动学和约束优化,生成与合成图像对应的关节空间动作标签,并保证夹爪与物体之间的接触约束;4) 将合成数据加入到训练集中,用于训练模仿学习策略。

关键创新:ROPA的关键创新在于:1) 将Stable Diffusion应用于合成机器人操作场景的RGB-D图像;2) 提出了一种约束优化方法,用于生成与合成图像对应的动作标签,并保证双臂操作的物理一致性;3) 针对眼外视角RGB-D双臂操作任务,提供了一种有效的数据增强方法。

关键设计:ROPA的关键设计包括:1) 使用Stable Diffusion的微调策略,以生成更逼真的机器人操作场景图像;2) 设计合适的损失函数,用于约束优化过程,例如,保证夹爪与物体之间的距离在合理范围内;3) 选择合适的逆运动学求解器,以生成合理的关节空间动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ROPA在5个模拟任务和3个真实世界任务上进行了评估。实验结果表明,ROPA在2625次模拟试验和300次真实世界试验中,均优于基线方法和消融实验,证明了其在眼外视角双臂操作数据增强方面的有效性。具体的性能提升数据在论文中给出。

🎯 应用场景

ROPA可应用于各种需要双臂操作的机器人任务,例如装配、抓取、操作等。该方法能够有效降低数据收集成本,提高模仿学习策略的鲁棒性和泛化能力,从而加速机器人技术在工业、医疗等领域的应用。

📄 摘要(原文)

Training robust bimanual manipulation policies via imitation learning requires demonstration data with broad coverage over robot poses, contacts, and scene contexts. However, collecting diverse and precise real-world demonstrations is costly and time-consuming, which hinders scalability. Prior works have addressed this with data augmentation, typically for either eye-in-hand (wrist camera) setups with RGB inputs or for generating novel images without paired actions, leaving augmentation for eye-to-hand (third-person) RGB-D training with new action labels less explored. In this paper, we propose Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation (ROPA), an offline imitation learning data augmentation method that fine-tunes Stable Diffusion to synthesize third-person RGB and RGB-D observations of novel robot poses. Our approach simultaneously generates corresponding joint-space action labels while employing constrained optimization to enforce physical consistency through appropriate gripper-to-object contact constraints in bimanual scenarios. We evaluate our method on 5 simulated and 3 real-world tasks. Our results across 2625 simulation trials and 300 real-world trials demonstrate that ROPA outperforms baselines and ablations, showing its potential for scalable RGB and RGB-D data augmentation in eye-to-hand bimanual manipulation. Our project website is available at: https://ropaaug.github.io/.