Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

📄 arXiv: 2603.11653v1 📥 PDF

作者: Jiaheng Hu, Jay Shim, Chen Tang, Yoonchang Sung, Bo Liu, Peter Stone, Roberto Martin-Martin

分类: cs.LG, cs.RO

发布日期: 2026-03-12


💡 一句话要点

简单配方有效:视觉-语言-动作模型是基于强化学习的自然持续学习器

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续强化学习 视觉-语言-动作模型 顺序微调 低秩自适应 终身学习

📋 核心要点

  1. 传统持续学习方法在视觉-语言-动作模型上表现不佳,常常面临灾难性遗忘的问题,限制了其在动态环境中的应用。
  2. 该论文提出使用简单的顺序微调(Seq. FT)结合低秩自适应(LoRA)方法,用于视觉-语言-动作模型的持续强化学习。
  3. 实验结果表明,该方法在多个基准测试中表现出色,实现了高可塑性、低遗忘和良好的零样本泛化能力,优于复杂的CRL方法。

📝 摘要(中文)

针对视觉-语言-动作(VLA)模型的持续强化学习(CRL)是构建能够适应开放、演变环境的自提升具身智能体的一个有前景的方向。然而,持续学习的传统观点认为,简单的顺序微调(Seq. FT)会导致灾难性遗忘,需要复杂的CRL策略。本文对大型预训练VLA模型在三个模型和五个具有挑战性的终身强化学习基准上进行了系统的CRL研究。我们发现,与既定观念相反,使用低秩自适应(LoRA)的简单Seq. FT非常强大:它实现了高可塑性,几乎没有遗忘,并保持了强大的零样本泛化能力,经常优于更复杂的CRL方法。通过详细的分析,我们表明这种鲁棒性来自于大型预训练模型、参数高效适应和在线策略强化学习之间的协同作用。这些组件共同重塑了稳定性-可塑性权衡,使持续适应既稳定又可扩展。我们的结果将顺序微调定位为VLA持续强化学习的强大方法,并为大型模型时代的终身学习提供了新的见解。

🔬 方法详解

问题定义:论文旨在解决视觉-语言-动作模型在持续强化学习(CRL)中遇到的灾难性遗忘问题。现有方法通常需要复杂的策略来避免遗忘,但这些方法往往难以实现或效果不佳。因此,如何设计一种简单有效的CRL方法,使VLA模型能够在不断变化的环境中持续学习并保持性能,是本文要解决的核心问题。

核心思路:论文的核心思路是利用大型预训练模型的强大表征能力,结合参数高效的低秩自适应(LoRA)方法,以及在线策略强化学习,来实现稳定且可扩展的持续学习。作者认为,大型预训练模型本身就具有一定的鲁棒性,而LoRA能够以较小的参数量进行微调,从而降低灾难性遗忘的风险。

技术框架:整体框架采用顺序微调(Seq. FT)的方式,即按照顺序依次学习不同的任务。在每个任务上,使用LoRA对预训练VLA模型进行微调,并使用在线策略强化学习算法进行训练。具体流程如下:1. 初始化预训练VLA模型;2. 对于每个新任务,使用LoRA添加可训练参数;3. 使用在线策略强化学习算法(如PPO)训练LoRA参数;4. 学习完当前任务后,固定LoRA参数,开始下一个任务的学习。

关键创新:论文的关键创新在于发现简单的顺序微调方法,结合LoRA,在大型预训练VLA模型的持续强化学习中表现出惊人的效果。这颠覆了以往认为CRL需要复杂策略的认知。此外,论文还深入分析了这种简单方法有效的原因,即大型预训练模型、参数高效适应和在线策略强化学习之间的协同作用。

关键设计:论文的关键设计包括:1. 使用大型预训练VLA模型作为基础模型;2. 使用LoRA进行参数高效的微调,减少需要更新的参数量;3. 使用在线策略强化学习算法(如PPO)进行训练,保证样本的有效性;4. 采用顺序微调的方式,简单直接,易于实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用LoRA的顺序微调方法在多个持续强化学习基准测试中,显著优于其他复杂的CRL方法。例如,在某些任务上,该方法甚至能够达到接近离线训练的性能,同时保持了良好的零样本泛化能力。这表明,对于大型预训练VLA模型,简单的微调策略可能比复杂的CRL策略更有效。

🎯 应用场景

该研究成果可应用于机器人、自动驾驶、游戏AI等领域,使智能体能够在真实世界中持续学习和适应新的任务和环境。例如,机器人可以不断学习新的操作技能,自动驾驶系统可以适应新的交通规则和路况,游戏AI可以学习新的游戏策略。该研究为构建更智能、更灵活的智能体奠定了基础。

📄 摘要(原文)

Continual Reinforcement Learning (CRL) for Vision-Language-Action (VLA) models is a promising direction toward self-improving embodied agents that can adapt in openended, evolving environments. However, conventional wisdom from continual learning suggests that naive Sequential Fine-Tuning (Seq. FT) leads to catastrophic forgetting, necessitating complex CRL strategies. In this work, we take a step back and conduct a systematic study of CRL for large pretrained VLAs across three models and five challenging lifelong RL benchmarks. We find that, contrary to established belief, simple Seq. FT with low-rank adaptation (LoRA) is remarkably strong: it achieves high plasticity, exhibits little to no forgetting, and retains strong zero-shot generalization, frequently outperforming more sophisticated CRL methods. Through detailed analysis, we show that this robustness arises from a synergy between the large pretrained model, parameter-efficient adaptation, and on-policy RL. Together, these components reshape the stability-plasticity trade-off, making continual adaptation both stable and scalable. Our results position Sequential Fine-Tuning as a powerful method for continual RL with VLAs and provide new insights into lifelong learning in the large model era. Code is available at github.com/UT-Austin-RobIn/continual-vla-rl.