RoVi-Aug: Robot and Viewpoint Augmentation for Cross-Embodiment Robot Learning

作者: Lawrence Yunliang Chen, Chenfeng Xu, Karthik Dharmarajan, Muhammad Zubair Irshad, Richard Cheng, Kurt Keutzer, Masayoshi Tomizuka, Quan Vuong, Ken Goldberg

分类: cs.RO

发布日期: 2024-09-05 (更新: 2024-09-09)

备注: CoRL 2024 (Oral). Project website: https://rovi-aug.github.io

💡 一句话要点

提出RoVi-Aug，通过机器人和视角增强实现跨形态机器人学习的零样本部署。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: 机器人学习 数据增强 跨形态学习 图像生成 零样本学习

📋 核心要点

现有机器人学习方法依赖大量数据，但数据集中机器人类型和相机角度分布不均导致策略过拟合。
RoVi-Aug利用图像生成模型合成不同机器人和相机视角的演示数据，增强训练集的多样性，提升泛化能力。
实验表明，RoVi-Aug能零样本部署到新机器人上，成功率提升高达30%，且无需测试时额外处理。

📝 摘要（中文）

为了扩展机器人学习，需要大规模且多样化的数据集，如何高效地重用已收集的数据并将策略迁移到新的机器人形态仍然是一个开放性问题。诸如Open-X Embodiment (OXE) 项目的新兴研究表明，通过组合包括不同机器人的数据集来利用技能是有希望的。然而，许多数据集中机器人类型和相机角度分布的不平衡使得策略容易过拟合。为了缓解这个问题，我们提出了RoVi-Aug，它利用最先进的图像到图像生成模型，通过合成具有不同机器人和相机视角的演示来增强机器人数据。通过大量的物理实验，我们表明，通过训练机器人和视角增强的数据，RoVi-Aug可以零样本部署在具有显著不同相机角度的未见过的机器人上。与诸如Mirage等测试时自适应算法相比，RoVi-Aug在测试时不需要额外的处理，不假设已知的相机角度，并且允许策略微调。此外，通过在原始和增强的机器人数据集上进行协同训练，RoVi-Aug可以学习多机器人和多任务策略，从而实现机器人和技能之间更有效的迁移，并将成功率提高高达30%。

🔬 方法详解

问题定义：论文旨在解决跨形态机器人学习中，由于训练数据集中机器人类型和相机视角分布不平衡导致的策略过拟合问题。现有方法难以泛化到新的机器人形态和视角，需要大量的特定数据或测试时自适应，效率较低。

核心思路：论文的核心思路是利用图像到图像的生成模型，对现有机器人数据集进行数据增强，生成包含不同机器人形态和相机视角的合成数据。通过在原始数据和增强数据上进行联合训练，提高策略对机器人形态和视角的鲁棒性，从而实现零样本跨形态部署。

技术框架：RoVi-Aug的技术框架主要包含以下几个阶段：1) 数据收集：收集包含不同机器人和任务的原始数据集。2) 图像生成模型训练：训练一个图像到图像的生成模型，能够将原始机器人图像转换为具有不同机器人形态和相机视角的图像。3) 数据增强：利用训练好的生成模型，对原始数据集进行数据增强，生成新的合成数据集。4) 策略训练：在原始数据集和合成数据集上进行联合训练，学习一个能够泛化到不同机器人形态和视角的策略。

关键创新：RoVi-Aug的关键创新在于利用图像生成模型进行机器人数据增强，从而有效地解决了跨形态机器人学习中的数据分布不平衡问题。与传统的测试时自适应方法相比，RoVi-Aug无需在测试时进行额外的处理，可以直接部署到新的机器人上。

关键设计：论文使用了最先进的图像到图像生成模型（具体模型未提及，属于未知信息）。在策略训练方面，采用了联合训练的方式，同时在原始数据集和合成数据集上进行训练，以平衡原始数据的真实性和合成数据的多样性。损失函数的设计可能包含模仿学习损失和对抗损失等，以保证策略的性能和生成图像的质量（具体损失函数未知）。

🖼️ 关键图片

📊 实验亮点

RoVi-Aug通过在机器人和视角增强的数据上进行训练，实现了在具有显著不同相机角度的未见过的机器人上的零样本部署。实验结果表明，与测试时自适应算法（如Mirage）相比，RoVi-Aug无需额外的测试时处理，并且能够将成功率提高高达30%。

🎯 应用场景

RoVi-Aug可应用于各种机器人学习场景，尤其适用于需要跨机器人平台部署的场景，例如自动化产线、仓储物流、家庭服务等。该方法能够降低机器人学习对大量特定数据的依赖，加速机器人技能的迁移和复用，降低开发成本，并促进多机器人协同作业。

📄 摘要（原文）

Scaling up robot learning requires large and diverse datasets, and how to efficiently reuse collected data and transfer policies to new embodiments remains an open question. Emerging research such as the Open-X Embodiment (OXE) project has shown promise in leveraging skills by combining datasets including different robots. However, imbalances in the distribution of robot types and camera angles in many datasets make policies prone to overfit. To mitigate this issue, we propose RoVi-Aug, which leverages state-of-the-art image-to-image generative models to augment robot data by synthesizing demonstrations with different robots and camera views. Through extensive physical experiments, we show that, by training on robot- and viewpoint-augmented data, RoVi-Aug can zero-shot deploy on an unseen robot with significantly different camera angles. Compared to test-time adaptation algorithms such as Mirage, RoVi-Aug requires no extra processing at test time, does not assume known camera angles, and allows policy fine-tuning. Moreover, by co-training on both the original and augmented robot datasets, RoVi-Aug can learn multi-robot and multi-task policies, enabling more efficient transfer between robots and skills and improving success rates by up to 30%. Project website: https://rovi-aug.github.io.

RoVi-Aug: Robot and Viewpoint Augmentation for Cross-Embodiment Robot Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理