VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators
作者: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su
分类: cs.RO, cs.CV
发布日期: 2025-10-01
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
VLA-RFT:基于世界模型和验证奖励的视觉-语言-动作强化微调
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 强化学习 世界模型 具身智能 机器人 模仿学习 泛化能力 鲁棒性
📋 核心要点
- VLA模型依赖模仿学习,易受累积误差和分布偏移影响,鲁棒性不足。
- VLA-RFT利用数据驱动的世界模型作为模拟器,通过强化微调提升策略。
- 实验表明,VLA-RFT仅需少量微调步骤即可超越监督基线,并具有良好鲁棒性。
📝 摘要(中文)
视觉-语言-动作(VLA)模型能够实现具身决策,但严重依赖模仿学习,导致累积误差和分布偏移下的鲁棒性差。强化学习(RL)可以缓解这些问题,但通常需要昂贵的真实世界交互或面临模拟到真实的差距。我们提出了VLA-RFT,一个强化微调框架,它利用数据驱动的世界模型作为可控的模拟器。该模拟器从真实交互数据中训练,预测以动作为条件的未来视觉观察,从而允许使用来自目标实现参考的密集、轨迹级奖励进行策略rollout。这种设计提供了一种高效且与动作对齐的学习信号,大大降低了样本需求。经过少于400步的微调,VLA-RFT超越了强大的监督基线,并实现了比基于模拟器的RL更高的效率。此外,它在扰动条件下表现出强大的鲁棒性,保持稳定的任务执行。我们的结果表明,基于世界模型的RFT是一种实用的后训练范例,可以增强VLA模型的泛化性和鲁棒性。
🔬 方法详解
问题定义:VLA-RFT旨在解决视觉-语言-动作模型在具身决策任务中,由于依赖模仿学习而导致的泛化能力差和鲁棒性不足的问题。现有方法要么需要大量的真实世界交互数据,成本高昂,要么依赖于模拟器,但存在模拟到真实的差距,影响实际应用效果。
核心思路:VLA-RFT的核心思路是利用一个数据驱动的世界模型作为可控的模拟器,通过强化学习对VLA模型进行微调。该世界模型能够预测在给定动作序列下的未来视觉观察,从而允许在模拟环境中进行策略rollout,并获得密集的、轨迹级别的奖励。这种方法旨在降低样本复杂度,并提供与动作对齐的有效学习信号。
技术框架:VLA-RFT框架包含以下主要模块:1) 数据驱动的世界模型:该模型基于真实交互数据进行训练,用于预测未来视觉观察。2) 奖励函数:基于目标实现参考,为策略rollout提供密集的、轨迹级别的奖励。3) 强化学习算法:利用奖励信号对VLA模型进行微调,提升其决策能力。整体流程是,首先利用世界模型进行策略rollout,然后根据奖励函数计算奖励,最后利用强化学习算法更新VLA模型的策略。
关键创新:VLA-RFT的关键创新在于将数据驱动的世界模型与强化微调相结合,用于提升VLA模型的泛化能力和鲁棒性。与传统的基于模拟器的强化学习方法相比,VLA-RFT利用真实数据训练世界模型,从而减小了模拟到真实的差距。此外,VLA-RFT采用密集的、轨迹级别的奖励,能够提供更有效的学习信号。
关键设计:VLA-RFT的关键设计包括:1) 世界模型的选择:论文中具体的世界模型结构未知,但强调了其数据驱动的特性。2) 奖励函数的设计:奖励函数的设计需要与具体任务相关,旨在引导策略朝着目标实现的方向发展。3) 强化学习算法的选择:论文中使用的具体强化学习算法未知,但强调了其能够有效利用密集奖励信号的能力。4) 微调步骤:实验中使用了少于400步的微调,表明该方法具有较高的样本效率。
📊 实验亮点
VLA-RFT在实验中表现出色,仅用不到400步的微调就超越了强大的监督学习基线,并且比传统的基于模拟器的强化学习方法更有效率。此外,VLA-RFT在受到扰动的情况下依然能够保持稳定的任务执行,展现了其强大的鲁棒性。这些结果表明,基于世界模型的强化微调是一种有效的提升VLA模型性能的方法。
🎯 应用场景
VLA-RFT具有广泛的应用前景,例如机器人导航、物体操作、人机协作等。通过提升VLA模型的泛化能力和鲁棒性,可以使其在更复杂的真实世界环境中稳定可靠地执行任务。该研究有望推动具身智能的发展,并为智能机器人在实际场景中的应用提供更强大的技术支持。
📄 摘要(原文)
Vision-Language-Action (VLA) models enable embodied decision-making but rely heavily on imitation learning, leading to compounding errors and poor robustness under distribution shift. Reinforcement learning (RL) can mitigate these issues yet typically demands costly real-world interactions or suffers from sim-to-real gaps. We introduce VLA-RFT, a reinforcement fine-tuning framework that leverages a data-driven world model as a controllable simulator. Trained from real interaction data, the simulator predicts future visual observations conditioned on actions, allowing policy rollouts with dense, trajectory-level rewards derived from goal-achieving references. This design delivers an efficient and action-aligned learning signal, drastically lowering sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses strong supervised baselines and achieves greater efficiency than simulator-based RL. Moreover, it exhibits strong robustness under perturbed conditions, sustaining stable task execution. Our results establish world-model-based RFT as a practical post-training paradigm to enhance the generalization and robustness of VLA models. For more details, please refer to https://vla-rft.github.io/.