Can VLA Models Learn from Real-World Data Continually without Forgetting?

📄 arXiv: 2605.26820v1 📥 PDF

作者: Jiarun Zhu, Yijun Hong, Xiaoquan Sun, Zetian Xu, Mingqi Yuan, Zhiyong Wang, Wenjun Zeng, Jiayu Chen

分类: cs.RO

发布日期: 2026-05-26


💡 一句话要点

构建真实世界VLA持续学习数据集,揭示灾难性遗忘并探索经验回放的有效性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 持续学习 灾难性遗忘 经验回放 机器人操作

📋 核心要点

  1. 现有的VLA模型在真实世界中持续学习时,面临灾难性遗忘的挑战,严重限制了其在复杂环境中的应用。
  2. 论文构建了一个包含多种操作任务的真实世界数据集,用于评估和提升VLA模型的持续学习能力。
  3. 通过实验,论文验证了经验回放方法在缓解灾难性遗忘方面的有效性,并指出了关键的实现因素。

📝 摘要(中文)

视觉-语言-动作(VLA)模型为通用机器人提供了一个有前景的基础。然而,它们在真实世界场景中的成功部署需要具备持续获取新技能并保留先前学习行为的能力。虽然先前的研究已经探索了VLA模型在狭窄模拟环境中的持续学习,但这种挑战在真实条件下仍然很大程度上未被探索。为了解决这个局限性,我们构建了一个真实世界的持续学习数据集,包含四个连续的操作任务,涵盖刚性物体的拾取和放置、富含接触的按压以及可变形物体的折叠。使用该数据集,我们进行了全面的实验,发现VLA模型在持续学习异构的真实世界演示时会遭受显著的灾难性遗忘。然后,我们系统地评估了经验回放,并揭示了控制其成功的关键实现因素。总而言之,这项工作提供了第一个关于真实世界持续VLA学习的实证研究,并为部署长期存在的机器人策略提供了实践指导。

🔬 方法详解

问题定义:论文旨在解决视觉-语言-动作(VLA)模型在真实世界环境中持续学习新任务时出现的灾难性遗忘问题。现有的VLA模型在模拟环境中表现良好,但在真实世界中,由于数据分布的差异和任务的复杂性,模型在学习新任务时会忘记之前学习的任务,导致性能下降。

核心思路:论文的核心思路是构建一个真实世界的持续学习数据集,并利用经验回放(Experience Replay)技术来缓解灾难性遗忘。经验回放通过存储先前学习任务的数据,并在学习新任务时重放这些数据,从而防止模型过度拟合新任务,保持对先前任务的记忆。

技术框架:整体框架包括数据收集、模型训练和评估三个主要阶段。首先,收集真实世界机器人操作的数据,构建包含多个连续操作任务的数据集。然后,使用VLA模型在该数据集上进行持续学习训练,并采用经验回放策略。最后,通过评估模型在先前任务和新任务上的性能,来衡量灾难性遗忘的程度和经验回放的有效性。

关键创新:该论文最重要的技术创新点在于构建了一个真实世界的VLA持续学习数据集。与现有的模拟环境数据集相比,该数据集更真实、更复杂,能够更好地反映真实世界机器人操作的挑战。此外,论文还系统地评估了经验回放在真实世界VLA持续学习中的有效性,并揭示了关键的实现因素。

关键设计:论文的关键设计包括数据集的构建方式、经验回放的实现细节以及评估指标的选择。数据集包含四个连续的操作任务,涵盖了刚性物体的拾取和放置、富含接触的按压以及可变形物体的折叠。经验回放的实现细节包括回放缓冲区的大小、重放频率以及数据选择策略。评估指标包括模型在先前任务和新任务上的成功率,以及灾难性遗忘的程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VLA模型在真实世界持续学习数据集上会遭受显著的灾难性遗忘。通过系统地评估经验回放,发现适当的回放缓冲区大小和重放频率可以有效缓解灾难性遗忘,提升模型在先前任务和新任务上的性能。该研究为部署长期存在的机器人策略提供了实践指导。

🎯 应用场景

该研究成果可应用于各种需要机器人持续学习和适应新环境的场景,例如智能制造、家庭服务机器人、医疗辅助机器人等。通过提升VLA模型在真实世界中的持续学习能力,可以使机器人更好地适应复杂多变的环境,完成更加多样化的任务,从而提高生产效率和服务质量。

📄 摘要(原文)

Vision-language-action (VLA) models provide a promising foundation for general-purpose robotics. However, their successful deployment in real-world scenarios requires the ability to continually acquire new skills while retaining previously learned behaviors. While pioneering research has studied the continual learning of VLA models in narrowly simulated environments, this challenge remains largely unexplored under realistic conditions. To address this limitation, we construct a real-world continual learning dataset comprising four sequential manipulation tasks, spanning rigid-object pick-and-place, contact-rich pressing, and deformable-object folding. Using this dataset, we conduct comprehensive experiments and find that VLA models suffer significant catastrophic forgetting when continually learning from heterogeneous real-world demonstrations. We then systematically evaluate experience replay and uncover key implementation factors that govern its success. In summary, this work provides the first empirical study of real-world continual VLA learning and offers practical guidance for deploying long-lived robot policies.