ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

作者: Jason Chen, I-Chun Arthur Liu, Gaurav Sukhatme, Daniel Seita

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2025-09-23

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

ROPA：用于RGB-D双臂操作数据增强的合成机器人姿态生成

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 数据增强 模仿学习 RGB-D 双臂机器人 Stable Diffusion 合成数据

📋 核心要点

模仿学习训练鲁棒的双臂操作策略需要覆盖广泛机器人姿态、接触和场景上下文的演示数据，而收集这些数据成本高昂。
ROPA通过微调Stable Diffusion，合成新的机器人姿态的RGB和RGB-D图像，并生成对应的动作标签，同时保证双臂操作的物理一致性。
在模拟和真实世界任务上的实验表明，ROPA优于基线方法，验证了其在眼外视角双臂操作数据增强方面的有效性。

📝 摘要（中文）

本文提出了一种名为ROPA（Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation）的离线模仿学习数据增强方法，该方法通过微调Stable Diffusion来合成新的机器人姿态的第三人称RGB和RGB-D观测。该方法在生成对应关节空间动作标签的同时，采用约束优化来通过适当的夹爪-物体接触约束在双臂场景中强制执行物理一致性。我们在5个模拟任务和3个真实世界任务上评估了我们的方法。结果表明，在2625次模拟试验和300次真实世界试验中，ROPA优于基线方法和消融实验，显示了其在眼外视角双臂操作中可扩展的RGB和RGB-D数据增强的潜力。

🔬 方法详解

问题定义：论文旨在解决在眼外视角（第三人称）RGB-D双臂操作任务中，模仿学习训练数据不足的问题。现有方法要么侧重于眼内视角（腕部相机）的RGB输入，要么生成没有配对动作的新图像，缺乏针对眼外视角RGB-D数据和新动作标签的数据增强方法。收集真实世界数据成本高昂，限制了策略的可扩展性。

核心思路：论文的核心思路是利用Stable Diffusion等生成模型，合成具有多样化机器人姿态的RGB-D图像，并同时生成对应的动作标签。通过约束优化，保证合成图像中双臂操作的物理一致性，从而实现有效的数据增强。

技术框架：ROPA方法主要包含以下几个阶段：1) 使用Stable Diffusion生成新的机器人姿态的RGB图像；2) 利用深度信息生成对应的RGB-D图像；3) 通过逆运动学和约束优化，生成与合成图像对应的关节空间动作标签，并保证夹爪与物体之间的接触约束；4) 将合成数据加入到训练集中，用于训练模仿学习策略。

关键创新：ROPA的关键创新在于：1) 将Stable Diffusion应用于合成机器人操作场景的RGB-D图像；2) 提出了一种约束优化方法，用于生成与合成图像对应的动作标签，并保证双臂操作的物理一致性；3) 针对眼外视角RGB-D双臂操作任务，提供了一种有效的数据增强方法。

关键设计：ROPA的关键设计包括：1) 使用Stable Diffusion的微调策略，以生成更逼真的机器人操作场景图像；2) 设计合适的损失函数，用于约束优化过程，例如，保证夹爪与物体之间的距离在合理范围内；3) 选择合适的逆运动学求解器，以生成合理的关节空间动作。

🖼️ 关键图片

📊 实验亮点

ROPA在5个模拟任务和3个真实世界任务上进行了评估。实验结果表明，ROPA在2625次模拟试验和300次真实世界试验中，均优于基线方法和消融实验，证明了其在眼外视角双臂操作数据增强方面的有效性。具体的性能提升数据在论文中给出。

🎯 应用场景

ROPA可应用于各种需要双臂操作的机器人任务，例如装配、抓取、操作等。该方法能够有效降低数据收集成本，提高模仿学习策略的鲁棒性和泛化能力，从而加速机器人技术在工业、医疗等领域的应用。

📄 摘要（原文）

Training robust bimanual manipulation policies via imitation learning requires demonstration data with broad coverage over robot poses, contacts, and scene contexts. However, collecting diverse and precise real-world demonstrations is costly and time-consuming, which hinders scalability. Prior works have addressed this with data augmentation, typically for either eye-in-hand (wrist camera) setups with RGB inputs or for generating novel images without paired actions, leaving augmentation for eye-to-hand (third-person) RGB-D training with new action labels less explored. In this paper, we propose Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation (ROPA), an offline imitation learning data augmentation method that fine-tunes Stable Diffusion to synthesize third-person RGB and RGB-D observations of novel robot poses. Our approach simultaneously generates corresponding joint-space action labels while employing constrained optimization to enforce physical consistency through appropriate gripper-to-object contact constraints in bimanual scenarios. We evaluate our method on 5 simulated and 3 real-world tasks. Our results across 2625 simulation trials and 300 real-world trials demonstrate that ROPA outperforms baselines and ablations, showing its potential for scalable RGB and RGB-D data augmentation in eye-to-hand bimanual manipulation. Our project website is available at: https://ropaaug.github.io/.

ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理