ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

作者: Jason Chen, I-Chun Arthur Liu, Gaurav Sukhatme, Daniel Seita

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2025-09-23

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

ROPA：用于RGB-D双臂操作数据增强的合成机器人姿态生成

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 数据增强 模仿学习 Stable Diffusion RGB-D图像

📋 核心要点

模仿学习训练鲁棒的双臂操作策略需要覆盖广泛机器人姿态的数据，而收集多样且精确的真实数据成本高昂。
ROPA通过微调Stable Diffusion合成新的机器人姿态，并使用约束优化保证双臂操作的物理一致性，生成对应的动作标签。
在模拟和真实环境中的实验表明，ROPA优于其他数据增强方法，验证了其在双臂操作数据增强方面的有效性。

📝 摘要（中文）

本文提出了一种名为ROPA（Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation）的离线模仿学习数据增强方法，用于合成新的机器人姿态的RGB和RGB-D观测。该方法通过微调Stable Diffusion，并同时生成对应的关节空间动作标签，利用约束优化在双臂场景中实施合适的夹爪-物体接触约束，从而保证物理一致性。我们在5个模拟任务和3个真实世界任务上评估了该方法。实验结果表明，在2625次模拟试验和300次真实世界试验中，ROPA优于基线方法和消融实验，展示了其在eye-to-hand双臂操作中可扩展的RGB和RGB-D数据增强的潜力。

🔬 方法详解

问题定义：现有的模仿学习方法在训练双臂操作任务时，需要大量的真实世界数据，而收集这些数据非常耗时且成本高昂。虽然数据增强技术可以缓解这个问题，但现有方法主要集中在eye-in-hand（腕部相机）设置下的RGB图像增强，或者生成没有配对动作的新图像，缺乏针对eye-to-hand（第三人称视角）RGB-D数据的有效增强方法，尤其是缺乏能够生成新动作标签的方法。

核心思路：ROPA的核心思路是利用Stable Diffusion强大的图像生成能力，通过微调使其能够生成具有不同机器人姿态的RGB和RGB-D图像。同时，为了保证生成图像的物理合理性，ROPA采用约束优化方法，在生成图像的同时，生成对应的关节空间动作标签，并强制执行夹爪与物体之间的接触约束。这样，ROPA不仅能够生成新的图像，还能够生成与图像对应的合理动作，从而实现有效的数据增强。

技术框架：ROPA的整体框架包含以下几个主要步骤：1) 使用现有的数据集对Stable Diffusion模型进行微调，使其能够生成包含机器人的场景图像；2) 通过采样新的机器人姿态，并使用微调后的Stable Diffusion模型生成对应的RGB和RGB-D图像；3) 使用约束优化方法，根据生成的图像，计算出对应的关节空间动作标签，并强制执行夹爪与物体之间的接触约束；4) 将生成的图像和动作标签添加到训练数据集中，用于训练模仿学习模型。

关键创新：ROPA的关键创新在于：1) 将Stable Diffusion应用于机器人操作的数据增强，利用其强大的图像生成能力，生成多样化的机器人姿态；2) 提出了基于约束优化的动作标签生成方法，保证了生成图像和动作的物理一致性；3) 针对双臂操作场景，设计了夹爪与物体之间的接触约束，提高了生成数据的合理性。

关键设计：ROPA的关键设计包括：1) Stable Diffusion的微调策略，包括使用哪些数据进行微调，以及如何调整模型的参数；2) 约束优化方法的设计，包括选择哪些约束条件，以及如何求解优化问题；3) 夹爪与物体之间的接触约束的具体形式，以及如何将其融入到优化问题中。此外，损失函数的设计也至关重要，需要平衡图像质量、动作合理性和物理一致性。

📊 实验亮点

ROPA在5个模拟任务和3个真实世界任务上进行了评估，结果表明ROPA显著优于基线方法和消融实验。在模拟环境中，ROPA在所有任务上都取得了最佳性能。在真实世界环境中，ROPA也表现出良好的泛化能力，能够有效地提高机器人的操作性能。具体而言，ROPA在某些任务上的成功率比基线方法提高了10%以上。

🎯 应用场景

ROPA可应用于各种需要大量训练数据的机器人操作任务，例如物体抓取、装配、操作工具等。通过生成更多样化的训练数据，可以提高机器人的泛化能力和鲁棒性，使其能够更好地适应真实世界的复杂环境。该方法还可以降低数据采集的成本，加速机器人技术的研发和应用。

📄 摘要（原文）

Training robust bimanual manipulation policies via imitation learning requires demonstration data with broad coverage over robot poses, contacts, and scene contexts. However, collecting diverse and precise real-world demonstrations is costly and time-consuming, which hinders scalability. Prior works have addressed this with data augmentation, typically for either eye-in-hand (wrist camera) setups with RGB inputs or for generating novel images without paired actions, leaving augmentation for eye-to-hand (third-person) RGB-D training with new action labels less explored. In this paper, we propose Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation (ROPA), an offline imitation learning data augmentation method that fine-tunes Stable Diffusion to synthesize third-person RGB and RGB-D observations of novel robot poses. Our approach simultaneously generates corresponding joint-space action labels while employing constrained optimization to enforce physical consistency through appropriate gripper-to-object contact constraints in bimanual scenarios. We evaluate our method on 5 simulated and 3 real-world tasks. Our results across 2625 simulation trials and 300 real-world trials demonstrate that ROPA outperforms baselines and ablations, showing its potential for scalable RGB and RGB-D data augmentation in eye-to-hand bimanual manipulation. Our project website is available at: https://ropaaug.github.io/.

ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册