RDGen: Demonstration Generation for High-Quality Robot Learning via Reinforcement Learning

作者: Zijian Zhu, Menglin Zou, Zhuang Li, Yaojie Tu, Xinhai Sun

分类: cs.RO

发布日期: 2026-05-29

备注: 13 pages, 4 figures, 3 tables

💡 一句话要点

RDGen：通过强化学习生成高质量机器人学习演示数据

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人学习 强化学习 演示学习 视觉语言动作模型 轨迹生成

📋 核心要点

现有VLA模型依赖人工遥操作收集机器人轨迹数据，存在劳动密集、成本高昂和难以扩展等问题。
RDGen利用强化学习策略在仿真环境中生成高质量轨迹，并迁移到真实机器人，作为VLA模型的训练数据。
实验表明，RDGen生成的轨迹更平滑，下游VLA模型性能优于使用人工遥操作数据训练的模型。

📝 摘要（中文）

视觉-语言-动作(VLA)模型已成为通用机器人控制的一种有前景的范例。然而，它们的性能从根本上受到高质量机器人轨迹数据的可用性限制。目前，这些数据主要通过人工遥操作收集，这种方法劳动密集、成本高且难以扩展。本文提出了RDGen，一个用于生成高质量机器人演示数据的sim-to-real强化学习框架。RDGen并非仅将强化学习用作最终控制策略，而是利用训练好的RL策略作为结构化的轨迹生成器。该系统包括一个基于VLM的任务解析器，用于识别任务相关的对象；一个基于Grounding DINO的对象定位器；以及一个从仿真环境迁移到真实机器人的RL策略。成功的rollout被收集为干净、高质量的演示数据，用于下游VLA训练，而仿真阶段进一步提供了可扩展的额外轨迹来源，边际成本很低。在抓取放置任务上的实验表明，迁移的RL策略实现了较高的任务成功率。与人工遥操作相比，RDGen生成了明显更平滑的轨迹，并产生了卓越的下游VLA性能。这些结果表明，RL生成的演示数据可以作为机器人策略学习更可靠和一致的监督信号。

🔬 方法详解

问题定义：现有VLA模型训练依赖人工遥操作收集机器人轨迹数据，但人工遥操作存在成本高、效率低、难以规模化的问题。此外，人工操作的轨迹质量参差不齐，可能影响下游VLA模型的性能。因此，需要一种自动、高效、低成本地生成高质量机器人演示数据的方法。

核心思路：RDGen的核心思路是利用强化学习（RL）训练一个策略，使其能够在仿真环境中生成高质量的机器人轨迹。然后，将该策略迁移到真实机器人上，收集真实环境中的轨迹数据。这些轨迹数据被用作下游VLA模型的训练数据。通过这种方式，可以避免人工遥操作的缺点，并获得更可靠和一致的监督信号。

技术框架：RDGen系统主要包含三个模块：1) 基于VLM的任务解析器：用于识别任务相关的对象。2) 基于Grounding DINO的对象定位器：用于定位场景中的目标对象。3) RL策略：在仿真环境中训练，然后迁移到真实机器人。整个流程是，首先VLM解析任务指令，Grounding DINO定位目标对象，然后RL策略控制机器人执行任务，成功执行的轨迹被记录下来，作为VLA模型的训练数据。

关键创新：RDGen的关键创新在于利用强化学习策略作为结构化的轨迹生成器，而不是直接将其作为最终的控制策略。通过在仿真环境中训练RL策略，可以获得大量的、高质量的轨迹数据，从而避免了人工遥操作的限制。此外，RDGen还利用了VLM和Grounding DINO等先进技术，提高了任务理解和对象定位的准确性。

关键设计：RDGen的关键设计包括：1) 使用合适的强化学习算法（具体算法未知）训练RL策略。2) 设计合适的奖励函数，鼓励RL策略生成高质量的轨迹。3) 使用sim-to-real技术，将RL策略从仿真环境迁移到真实机器人。4) VLM任务解析器的具体模型选择和训练方式未知。5) Grounding DINO对象定位器的具体配置和训练方式未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RDGen生成的轨迹比人工遥操作生成的轨迹更平滑，并且使用RDGen生成的轨迹训练的VLA模型性能优于使用人工遥操作数据训练的模型。具体性能提升数据未知，但结论表明RL生成的演示数据可以作为机器人策略学习更可靠和一致的监督信号。

🎯 应用场景

RDGen可应用于各种机器人学习任务，例如物体抓取、放置、组装等。通过自动生成高质量的演示数据，可以降低机器人学习的成本，提高学习效率，并最终实现更智能、更灵活的机器人系统。该方法在工业自动化、家庭服务、医疗保健等领域具有广泛的应用前景。

📄 摘要（原文）

Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robot control. However, their performance remains fundamentally constrained by the availability of high-quality robot trajectory data. In current robot learning practice, such data are primarily collected through human teleoperation, which is labor-intensive, costly, and difficult to scale. In this paper, we propose RDGen, a sim-to-real reinforcement learning framework for generating high-quality robot demonstrations. Rather than employing reinforcement learning solely as the final control policy, RDGen leverages trained RL policies as a structured trajectory generator. The system consists of a VLM-based task parser that identifies task-relevant objects, a Grounding DINO-based object localizer, and an RL policy transferred from simulation to the real robot. Successful rollouts are then harvested as clean, high-quality demonstrations for downstream VLA training, while the simulation stage further provides a scalable source of additional trajectories at little marginal cost. Experiments on a pick-and-place task demonstrate that the transferred RL policy achieves a high task success rate. Compared with human teleoperation, RDGen produces significantly smoother trajectories and yields superior downstream VLA performance. These results indicate that RL-generated demonstrations can serve as more reliable and consistent supervisory signals for robot policy learning.

RDGen: Demonstration Generation for High-Quality Robot Learning via Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理