Reinforcing Action Policies by Prophesying

作者: Jiahui Zhang, Ze Huang, Chun Gu, Zipei Ma, Li Zhang

分类: cs.RO

发布日期: 2025-11-25

备注: https://LogosRoboticsGroup.github.io/ProphRL

💡 一句话要点

ProphRL：通过预测进行视觉-语言-动作策略的强化学习，提升机器人控制性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉语言动作 强化学习 世界模型 机器人控制 模仿学习

📋 核心要点

现有VLA策略依赖模仿学习，易过拟合且泛化性差，真实机器人强化学习成本高，传统模拟器难以迁移。
提出ProphRL，利用预训练世界模型Prophet学习动作-结果动态，并结合FA-GRPO和FlowScale进行强化学习。
实验表明，ProphRL在公共基准和真实机器人实验中均显著提升了VLA策略的成功率，验证了其有效性。

📝 摘要（中文）

视觉-语言-动作（VLA）策略在对齐语言、感知和机器人控制方面表现出色。然而，大多数VLA策略仅通过模仿学习进行训练，这会导致过拟合演示数据，并且在分布偏移下表现脆弱。强化学习（RL）直接优化任务奖励，从而解决这种不一致性，但真实机器人交互成本高昂，且传统模拟器难以设计和迁移。我们通过学习的世界模型和为基于流的动作头定制的RL过程，解决了VLA后训练中的数据效率和优化稳定性问题。具体而言，我们引入了Prophet，一个统一的动作到视频的机器人驱动预训练模型，它跨大规模异构机器人数据学习可重用的动作-结果动态。它能够少量样本适应新的机器人、对象和环境，从而产生一个可直接用于rollout的模拟器。在Prophet的基础上，我们使用Flow-action-GRPO（FA-GRPO）强化动作策略，该方法使Flow-GRPO能够对VLA动作进行操作，并使用FlowScale，一种逐步重新加权的方法，可以重新调整流头中每一步的梯度。Prophet、FA-GRPO和FlowScale共同构成了ProphRL，这是一种实用、数据和计算高效的VLA后训练方法。实验表明，在公共基准测试中成功率提高了5-17%，在不同VLA变体上的真实机器人实验中成功率提高了24-30%。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）策略主要依赖模仿学习，容易过拟合训练数据，导致在真实环境中泛化能力不足。直接在真实机器人上进行强化学习成本高昂，而传统模拟器难以准确模拟真实世界的复杂性，导致策略迁移困难。因此，如何高效、稳定地对VLA策略进行后训练，提升其在真实环境中的性能，是一个亟待解决的问题。

核心思路：ProphRL的核心思路是利用一个预训练的世界模型（Prophet）来学习机器人动作与环境变化之间的动态关系，从而构建一个可用于强化学习的模拟环境。通过在这个模拟环境中进行强化学习，可以避免直接在真实机器人上进行昂贵的交互，并提高数据效率。同时，针对VLA策略的特点，设计了FA-GRPO和FlowScale，以优化强化学习过程。

技术框架：ProphRL主要包含三个模块：1) Prophet：一个预训练的动作到视频的机器人驱动模型，用于学习动作-结果动态。2) FA-GRPO：将Flow-GRPO算法适配到VLA动作空间，用于强化学习。3) FlowScale：一种逐步重新加权的方法，用于调整流头中的梯度，提高优化稳定性。整体流程是：首先使用Prophet构建模拟环境，然后在该环境中利用FA-GRPO和FlowScale进行强化学习，最终得到一个优化后的VLA策略。

关键创新：ProphRL的关键创新在于：1) 提出了Prophet，一个可以学习动作-结果动态的预训练世界模型，能够少量样本适应新的机器人、对象和环境。2) 设计了FA-GRPO，将Flow-GRPO算法适配到VLA动作空间，使其能够处理视觉和语言信息。3) 提出了FlowScale，一种逐步重新加权的方法，用于调整流头中的梯度，提高优化稳定性。与现有方法相比，ProphRL能够更高效、稳定地对VLA策略进行后训练。

关键设计：Prophet使用大规模异构机器人数据进行预训练，学习动作与视频帧之间的映射关系。FA-GRPO利用Flow-GRPO的优势，结合VLA策略的特点，设计了特定的网络结构和损失函数。FlowScale通过逐步调整流头中每一步的梯度权重，来平衡不同时间步的影响，提高优化稳定性。具体的参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

实验结果表明，ProphRL在公共基准测试中成功率提高了5-17%，在不同VLA变体上的真实机器人实验中成功率提高了24-30%。这些结果表明，ProphRL能够显著提升VLA策略的性能，并且具有良好的泛化能力。

🎯 应用场景

ProphRL具有广泛的应用前景，可用于提升各种机器人任务的性能，例如物体抓取、装配、导航等。该方法可以降低机器人强化学习的成本，加速机器人技术的落地应用。此外，ProphRL还可以应用于虚拟现实、游戏等领域，用于生成更逼真的机器人行为。

📄 摘要（原文）

Vision-Language-Action (VLA) policies excel in aligning language, perception, and robot control. However, most VLAs are trained purely by imitation, which overfits to demonstrations, and is brittle under distribution shift. Reinforcement learning (RL) directly optimizes task reward and thus addresses this misalignment, but real-robot interaction is expensive and conventional simulators are hard to engineer and transfer. We address both data efficiency and optimization stability in VLA post-training via a learned world model and an RL procedure tailored to flow-based action heads. Specifically, we introduce Prophet, a unified action-to-video robot actuation pretrained across large-scale, heterogeneous robot data to learn reusable action-outcome dynamics. It is able to few-shot adapt to new robots, objects, and environments, yielding a rollout-ready simulator. Upon Prophet, we reinforce action policies with Flow-action-GRPO (FA-GRPO), which adapts Flow-GRPO to operate on VLA actions, and with FlowScale, a stepwise reweighting that rescales per-step gradients in the flow head. Together, Prophet, FA-GRPO, and FlowScale constitute ProphRL, a practical, data- and compute-efficient path to VLA post-training. Experiments show 5-17% success gains on public benchmarks and 24-30% gains on real robots across different VLA variants.

Reinforcing Action Policies by Prophesying

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册