CRL-VLA: Continual Vision-Language-Action Learning
作者: Qixin Zeng, Shuo Zhang, Hongyin Zhang, Renjie Wang, Han Zhao, Libang Zhao, Runze Li, Donglin Wang, Chao Huang
分类: cs.AI, cs.LG, cs.RO
发布日期: 2026-02-03
💡 一句话要点
提出CRL-VLA框架,解决具身智能体持续视觉-语言-动作学习中的稳定性-可塑性难题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 视觉-语言-动作 具身智能 强化学习 稳定性-可塑性 机器人 目标条件价值函数
📋 核心要点
- 现有VLA模型在持续学习中面临稳定性与可塑性的挑战,即如何在学习新任务的同时,保持已掌握的技能。
- CRL-VLA通过非对称调节优势幅度,约束旧任务并促进新任务学习,从而平衡稳定性和可塑性。
- 实验结果表明,CRL-VLA在LIBERO基准测试中,显著提升了VLA模型在持续学习中的抗遗忘能力和前向适应能力。
📝 摘要(中文)
本文提出CRL-VLA框架,用于视觉-语言-动作(VLA)模型的持续后训练,旨在使具身智能体在开放世界环境中掌握灵巧操作。持续强化学习(CRL)是VLA模型部署在终身机器人场景中的有前景的途径,但现有方法难以平衡稳定性和可塑性。CRL-VLA通过严格的理论界限,将稳定性-可塑性权衡与目标条件优势幅度(goal-conditioned advantage magnitude)联系起来,并用策略差异进行缩放。CRL-VLA通过非对称调节解决这一难题:约束先前任务的优势幅度,同时允许新任务上受控增长。这通过一个简单但有效的双评论家架构和新颖的目标条件价值公式(GCVF)实现,其中冻结的评论家锚定语义一致性,而可训练的估计器驱动适应。在LIBERO基准上的实验表明,CRL-VLA有效地协调了这些冲突的目标,在抗遗忘和前向适应方面均优于基线。
🔬 方法详解
问题定义:论文旨在解决视觉-语言-动作(VLA)模型在持续强化学习(CRL)场景下的稳定性-可塑性难题。现有方法难以在学习新任务的同时,保持已掌握的技能,导致灾难性遗忘。
核心思路:论文的核心思路是通过非对称调节目标条件优势幅度来平衡稳定性与可塑性。具体来说,对先前任务的优势幅度进行约束,以防止遗忘,同时允许新任务上的优势幅度受控增长,从而实现快速适应。这种非对称调节策略能够有效地协调新旧任务之间的冲突。
技术框架:CRL-VLA框架采用双评论家架构。一个评论家(冻结)负责锚定语义一致性,确保模型对目标语义的理解不会发生剧烈变化,从而维持旧任务的性能。另一个评论家(可训练)则负责驱动适应,学习新任务的价值函数。此外,论文还提出了目标条件价值公式(GCVF),用于更有效地估计目标条件下的价值函数。
关键创新:最重要的技术创新点在于非对称调节优势幅度。与传统的正则化方法不同,CRL-VLA不是简单地对所有参数进行正则化,而是有选择性地约束旧任务的优势幅度,同时允许新任务的优势幅度自由增长。这种方法能够更有效地平衡稳定性和可塑性。
关键设计:双评论家架构是关键设计之一,其中冻结的评论家使用预训练的VLA模型参数初始化,并保持不变,以确保语义一致性。可训练的评论家则使用随机参数初始化,并通过强化学习算法进行训练。目标条件价值公式(GCVF)的设计也至关重要,它能够更准确地估计目标条件下的价值函数,从而提高学习效率。
📊 实验亮点
在LIBERO基准测试中,CRL-VLA在抗遗忘和前向适应方面均优于基线方法。具体来说,CRL-VLA在保持旧任务性能的同时,能够更快地学习新任务,并且在多个任务上的平均性能也显著提升。这些实验结果表明,CRL-VLA能够有效地平衡稳定性和可塑性。
🎯 应用场景
CRL-VLA框架可应用于各种需要持续学习的机器人任务,例如家庭服务机器人、工业机器人等。这些机器人需要在不断变化的环境中学习新的技能,同时保持已掌握的技能。该研究有助于提升机器人在真实世界中的适应性和可靠性,加速机器人技术的普及。
📄 摘要(原文)
Lifelong learning is critical for embodied agents in open-world environments, where reinforcement learning fine-tuning has emerged as an important paradigm to enable Vision-Language-Action (VLA) models to master dexterous manipulation through environmental interaction. Thus, Continual Reinforcement Learning (CRL) is a promising pathway for deploying VLA models in lifelong robotic scenarios, yet balancing stability (retaining old skills) and plasticity (learning new ones) remains a formidable challenge for existing methods. We introduce CRL-VLA, a framework for continual post-training of VLA models with rigorous theoretical bounds. We derive a unified performance bound linking the stability-plasticity trade-off to goal-conditioned advantage magnitude, scaled by policy divergence. CRL-VLA resolves this dilemma via asymmetric regulation: constraining advantage magnitudes on prior tasks while enabling controlled growth on new tasks. This is realized through a simple but effective dual-critic architecture with novel Goal-Conditioned Value Formulation (GCVF), where a frozen critic anchors semantic consistency and a trainable estimator drives adaptation. Experiments on the LIBERO benchmark demonstrate that CRL-VLA effectively harmonizes these conflicting objectives, outperforming baselines in both anti-forgetting and forward adaptation.