VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

作者: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su

分类: cs.RO, cs.CV

发布日期: 2025-10-01

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

VLA-RFT：基于世界模型和验证奖励的视觉-语言-动作强化微调

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 强化学习 世界模型 具身智能 机器人 模仿学习 泛化能力 鲁棒性

📋 核心要点

VLA模型依赖模仿学习，易受累积误差和分布偏移影响，鲁棒性不足。
VLA-RFT利用数据驱动的世界模型作为模拟器，通过强化微调提升策略。
实验表明，VLA-RFT仅需少量微调步骤即可超越监督基线，并具有良好鲁棒性。

📝 摘要（中文）

视觉-语言-动作（VLA）模型能够实现具身决策，但严重依赖模仿学习，导致累积误差和分布偏移下的鲁棒性差。强化学习（RL）可以缓解这些问题，但通常需要昂贵的真实世界交互或面临模拟到真实的差距。我们提出了VLA-RFT，一个强化微调框架，它利用数据驱动的世界模型作为可控的模拟器。该模拟器从真实交互数据中训练，预测以动作为条件的未来视觉观察，从而允许使用来自目标实现参考的密集、轨迹级奖励进行策略rollout。这种设计提供了一种高效且与动作对齐的学习信号，大大降低了样本需求。经过少于400步的微调，VLA-RFT超越了强大的监督基线，并实现了比基于模拟器的RL更高的效率。此外，它在扰动条件下表现出强大的鲁棒性，保持稳定的任务执行。我们的结果表明，基于世界模型的RFT是一种实用的后训练范例，可以增强VLA模型的泛化性和鲁棒性。

🔬 方法详解

问题定义：VLA-RFT旨在解决视觉-语言-动作模型在具身决策任务中，由于依赖模仿学习而导致的泛化能力差和鲁棒性不足的问题。现有方法要么需要大量的真实世界交互数据，成本高昂，要么依赖于模拟器，但存在模拟到真实的差距，影响实际应用效果。

核心思路：VLA-RFT的核心思路是利用一个数据驱动的世界模型作为可控的模拟器，通过强化学习对VLA模型进行微调。该世界模型能够预测在给定动作序列下的未来视觉观察，从而允许在模拟环境中进行策略rollout，并获得密集的、轨迹级别的奖励。这种方法旨在降低样本复杂度，并提供与动作对齐的有效学习信号。

技术框架：VLA-RFT框架包含以下主要模块：1) 数据驱动的世界模型：该模型基于真实交互数据进行训练，用于预测未来视觉观察。2) 奖励函数：基于目标实现参考，为策略rollout提供密集的、轨迹级别的奖励。3) 强化学习算法：利用奖励信号对VLA模型进行微调，提升其决策能力。整体流程是，首先利用世界模型进行策略rollout，然后根据奖励函数计算奖励，最后利用强化学习算法更新VLA模型的策略。

关键创新：VLA-RFT的关键创新在于将数据驱动的世界模型与强化微调相结合，用于提升VLA模型的泛化能力和鲁棒性。与传统的基于模拟器的强化学习方法相比，VLA-RFT利用真实数据训练世界模型，从而减小了模拟到真实的差距。此外，VLA-RFT采用密集的、轨迹级别的奖励，能够提供更有效的学习信号。

关键设计：VLA-RFT的关键设计包括：1) 世界模型的选择：论文中具体的世界模型结构未知，但强调了其数据驱动的特性。2) 奖励函数的设计：奖励函数的设计需要与具体任务相关，旨在引导策略朝着目标实现的方向发展。3) 强化学习算法的选择：论文中使用的具体强化学习算法未知，但强调了其能够有效利用密集奖励信号的能力。4) 微调步骤：实验中使用了少于400步的微调，表明该方法具有较高的样本效率。

📊 实验亮点

VLA-RFT在实验中表现出色，仅用不到400步的微调就超越了强大的监督学习基线，并且比传统的基于模拟器的强化学习方法更有效率。此外，VLA-RFT在受到扰动的情况下依然能够保持稳定的任务执行，展现了其强大的鲁棒性。这些结果表明，基于世界模型的强化微调是一种有效的提升VLA模型性能的方法。

🎯 应用场景

VLA-RFT具有广泛的应用前景，例如机器人导航、物体操作、人机协作等。通过提升VLA模型的泛化能力和鲁棒性，可以使其在更复杂的真实世界环境中稳定可靠地执行任务。该研究有望推动具身智能的发展，并为智能机器人在实际场景中的应用提供更强大的技术支持。

📄 摘要（原文）

Vision-Language-Action (VLA) models enable embodied decision-making but rely heavily on imitation learning, leading to compounding errors and poor robustness under distribution shift. Reinforcement learning (RL) can mitigate these issues yet typically demands costly real-world interactions or suffers from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning framework that leverages a data-driven world model as a controllable simulator. Trained from real interaction data, the simulator predicts future visual observations conditioned on actions, allowing policy rollouts with dense, trajectory-level rewards derived from goal-achieving references. This design delivers an efficient and action-aligned learning signal, drastically lowering sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses strong supervised baselines and achieves greater efficiency than simulator-based RL. Moreover, it exhibits strong robustness under perturbed conditions, sustaining stable task execution. Our results establish world-model-based RFT as a practical post-training paradigm to enhance the generalization and robustness of VLA models. For more details, please refer to https://vla-rft.github.io/.

VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册