Self-Improving Vision-Language-Action Models with Data Generation via Residual RL

📄 arXiv: 2511.00091v1 📥 PDF

作者: Wenli Xiao, Haotian Lin, Andy Peng, Haoru Xue, Tairan He, Yuqi Xie, Fengyuan Hu, Jimmy Wu, Zhengyi Luo, Linxi "Jim" Fan, Guanya Shi, Yuke Zhu

分类: cs.CV, cs.RO

发布日期: 2025-10-30

备注: 26 pages


💡 一句话要点

提出PLD框架,通过残差强化学习和数据生成自提升视觉-语言-动作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 强化学习 残差学习 数据生成 自提升 机器人操作 监督微调

📋 核心要点

  1. 现有VLA模型依赖人工标注数据进行监督微调,成本高昂且泛化性受限。
  2. PLD框架通过残差强化学习探测模型弱点,并生成与部署环境对齐的数据进行自提升。
  3. 实验表明,PLD在多个任务中显著提升了VLA模型的性能,包括模拟和真实机器人操作。

📝 摘要(中文)

监督微调(SFT)已成为大型视觉-语言-动作(VLA)模型的事实标准后训练策略,但其对昂贵的人工演示的依赖限制了可扩展性和泛化能力。我们提出了Probe, Learn, Distill (PLD),一个三阶段即插即用框架,通过残差强化学习(RL)和分布感知数据收集来改进VLA模型。在第一阶段,我们训练轻量级残差actor来探测VLA通用模型的失败区域。在第二阶段,我们使用混合rollout方案,该方案将收集到的轨迹与通用模型的部署分布对齐,同时捕获恢复行为。在第三阶段,我们使用标准SFT将精选的轨迹提炼回通用模型。PLD在LIBERO上实现了接近饱和的99%的任务成功率,在SimplerEnv中获得了超过50%的收益,并在真实世界的Franka和YAM机械臂操作任务中实现了100%的成功率。消融实验表明,残差探测和分布感知回放是收集部署对齐数据的关键,这些数据可以改进已见和未见任务,从而为自提升VLA模型提供可扩展的路径。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型依赖于大量人工标注的演示数据进行监督微调(SFT),这限制了模型的可扩展性和泛化能力。人工标注成本高,且标注数据难以覆盖所有可能的场景和状态,导致模型在未见过的任务或环境中表现不佳。

核心思路:PLD框架的核心思路是利用强化学习自动探索VLA模型的弱点,并生成高质量的训练数据,从而实现模型的自提升。通过残差强化学习,学习一个轻量级的策略来修正VLA模型的行为,并利用分布感知的采样策略,保证生成的数据与模型的实际部署环境一致。

技术框架:PLD框架包含三个主要阶段: 1. Probe (探测):训练轻量级的残差actor,用于探测VLA通用模型在哪些状态下容易失败。 2. Learn (学习):使用混合rollout方案,结合VLA通用模型的行为和残差actor的行为,生成高质量的轨迹数据。该方案旨在对齐收集到的轨迹与通用模型的部署分布,同时捕获恢复行为。 3. Distill (提炼):使用标准监督微调(SFT)方法,将收集到的轨迹数据提炼回VLA通用模型,从而提升模型的性能。

关键创新:PLD框架的关键创新在于: 1. 残差探测:使用残差强化学习来探测VLA模型的弱点,而不是直接学习一个完整的策略。 2. 分布感知回放:使用混合rollout方案,保证生成的数据与模型的实际部署环境一致,从而避免了强化学习中常见的分布偏移问题。

关键设计: 1. 残差Actor网络结构:残差actor通常是一个轻量级的神经网络,其输入是VLA模型的中间层特征,输出是动作的修正量。 2. 混合Rollout方案:混合rollout方案通常采用一定的概率来选择VLA模型的动作或残差actor的动作,以平衡探索和利用。 3. 奖励函数设计:奖励函数通常基于任务的成功与否以及动作的效率来设计,以鼓励残差actor学习到有效的修正策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PLD框架在LIBERO上实现了接近饱和的99%任务成功率,在SimplerEnv中获得了超过50%的性能提升,并在真实世界的Franka和YAM机械臂操作任务中实现了100%的成功率。消融实验证明,残差探测和分布感知回放是提升性能的关键因素。

🎯 应用场景

该研究成果可广泛应用于机器人操作、自动驾驶、游戏AI等领域。通过自提升的方式,VLA模型能够不断适应新的环境和任务,降低对人工标注数据的依赖,提高模型的泛化能力和鲁棒性。未来,该方法有望实现更智能、更自主的机器人系统。

📄 摘要(原文)

Supervised fine-tuning (SFT) has become the de facto post-training strategy for large vision-language-action (VLA) models, but its reliance on costly human demonstrations limits scalability and generalization. We propose Probe, Learn, Distill (PLD), a three-stage plug-and-play framework that improves VLAs through residual reinforcement learning (RL) and distribution-aware data collection. In Stage 1, we train lightweight residual actors to probe failure regions of the VLA generalist. In Stage 2, we use a hybrid rollout scheme that aligns collected trajectories with the generalist's deployment distribution while capturing recovery behaviors. In Stage 3, we distill the curated trajectories back into the generalist with standard SFT. PLD achieves near-saturated 99% task success on LIBERO, over 50% gains in SimplerEnv, and 100% success on real-world Franka and YAM arm manipulation tasks. Ablations show that residual probing and distribution-aware replay are key to collecting deployment-aligned data that improves both seen and unseen tasks, offering a scalable path toward self-improving VLA models.