RDGen: Demonstration Generation for High-Quality Robot Learning via Reinforcement Learning

📄 arXiv: 2605.30957v1 📥 PDF

作者: Zijian Zhu, Menglin Zou, Zhuang Li, Yaojie Tu, Xinhai Sun

分类: cs.RO

发布日期: 2026-05-29

备注: 13 pages, 4 figures, 3 tables


💡 一句话要点

RDGen:通过强化学习生成高质量机器人学习演示数据

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人学习 强化学习 演示学习 视觉语言动作模型 轨迹生成

📋 核心要点

  1. 现有VLA模型依赖人工遥操作收集机器人轨迹数据,存在劳动密集、成本高昂和难以扩展等问题。
  2. RDGen利用强化学习策略在仿真环境中生成高质量轨迹,并迁移到真实机器人,作为VLA模型的训练数据。
  3. 实验表明,RDGen生成的轨迹更平滑,下游VLA模型性能优于使用人工遥操作数据训练的模型。

📝 摘要(中文)

视觉-语言-动作(VLA)模型已成为通用机器人控制的一种有前景的范例。然而,它们的性能从根本上受到高质量机器人轨迹数据的可用性限制。目前,这些数据主要通过人工遥操作收集,这种方法劳动密集、成本高且难以扩展。本文提出了RDGen,一个用于生成高质量机器人演示数据的sim-to-real强化学习框架。RDGen并非仅将强化学习用作最终控制策略,而是利用训练好的RL策略作为结构化的轨迹生成器。该系统包括一个基于VLM的任务解析器,用于识别任务相关的对象;一个基于Grounding DINO的对象定位器;以及一个从仿真环境迁移到真实机器人的RL策略。成功的rollout被收集为干净、高质量的演示数据,用于下游VLA训练,而仿真阶段进一步提供了可扩展的额外轨迹来源,边际成本很低。在抓取放置任务上的实验表明,迁移的RL策略实现了较高的任务成功率。与人工遥操作相比,RDGen生成了明显更平滑的轨迹,并产生了卓越的下游VLA性能。这些结果表明,RL生成的演示数据可以作为机器人策略学习更可靠和一致的监督信号。

🔬 方法详解

问题定义:现有VLA模型训练依赖人工遥操作收集机器人轨迹数据,但人工遥操作存在成本高、效率低、难以规模化的问题。此外,人工操作的轨迹质量参差不齐,可能影响下游VLA模型的性能。因此,需要一种自动、高效、低成本地生成高质量机器人演示数据的方法。

核心思路:RDGen的核心思路是利用强化学习(RL)训练一个策略,使其能够在仿真环境中生成高质量的机器人轨迹。然后,将该策略迁移到真实机器人上,收集真实环境中的轨迹数据。这些轨迹数据被用作下游VLA模型的训练数据。通过这种方式,可以避免人工遥操作的缺点,并获得更可靠和一致的监督信号。

技术框架:RDGen系统主要包含三个模块:1) 基于VLM的任务解析器:用于识别任务相关的对象。2) 基于Grounding DINO的对象定位器:用于定位场景中的目标对象。3) RL策略:在仿真环境中训练,然后迁移到真实机器人。整个流程是,首先VLM解析任务指令,Grounding DINO定位目标对象,然后RL策略控制机器人执行任务,成功执行的轨迹被记录下来,作为VLA模型的训练数据。

关键创新:RDGen的关键创新在于利用强化学习策略作为结构化的轨迹生成器,而不是直接将其作为最终的控制策略。通过在仿真环境中训练RL策略,可以获得大量的、高质量的轨迹数据,从而避免了人工遥操作的限制。此外,RDGen还利用了VLM和Grounding DINO等先进技术,提高了任务理解和对象定位的准确性。

关键设计:RDGen的关键设计包括:1) 使用合适的强化学习算法(具体算法未知)训练RL策略。2) 设计合适的奖励函数,鼓励RL策略生成高质量的轨迹。3) 使用sim-to-real技术,将RL策略从仿真环境迁移到真实机器人。4) VLM任务解析器的具体模型选择和训练方式未知。5) Grounding DINO对象定位器的具体配置和训练方式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RDGen生成的轨迹比人工遥操作生成的轨迹更平滑,并且使用RDGen生成的轨迹训练的VLA模型性能优于使用人工遥操作数据训练的模型。具体性能提升数据未知,但结论表明RL生成的演示数据可以作为机器人策略学习更可靠和一致的监督信号。

🎯 应用场景

RDGen可应用于各种机器人学习任务,例如物体抓取、放置、组装等。通过自动生成高质量的演示数据,可以降低机器人学习的成本,提高学习效率,并最终实现更智能、更灵活的机器人系统。该方法在工业自动化、家庭服务、医疗保健等领域具有广泛的应用前景。

📄 摘要(原文)

Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robot control. However, their performance remains fundamentally constrained by the availability of high-quality robot trajectory data. In current robot learning practice, such data are primarily collected through human teleoperation, which is labor-intensive, costly, and difficult to scale. In this paper, we propose RDGen, a sim-to-real reinforcement learning framework for generating high-quality robot demonstrations. Rather than employing reinforcement learning solely as the final control policy, RDGen leverages trained RL policies as a structured trajectory generator. The system consists of a VLM-based task parser that identifies task-relevant objects, a Grounding DINO-based object localizer, and an RL policy transferred from simulation to the real robot. Successful rollouts are then harvested as clean, high-quality demonstrations for downstream VLA training, while the simulation stage further provides a scalable source of additional trajectories at little marginal cost. Experiments on a pick-and-place task demonstrate that the transferred RL policy achieves a high task success rate. Compared with human teleoperation, RDGen produces significantly smoother trajectories and yields superior downstream VLA performance. These results indicate that RL-generated demonstrations can serve as more reliable and consistent supervisory signals for robot policy learning.