VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models

📄 arXiv: 2605.29562v1 📥 PDF

作者: Shengyu Si, Yuanzhuo Lu, Ruimeng Yang, Ziyi Ye, Zuxuan Wu, Yu-Gang Jiang

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-05-28


💡 一句话要点

VLA-Pro:面向视觉-语言-动作模型的跨任务程序记忆迁移框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人操作 跨任务泛化 程序记忆 LoRA适配器

📋 核心要点

  1. 现有VLA模型难以泛化到需要跨对象、场景和动作模式迁移经验的新任务。
  2. VLA-Pro通过存储任务相关的程序记忆并在推理时迁移这些记忆来增强跨任务泛化能力。
  3. 实验表明,VLA-Pro在模拟和真实世界任务中显著提高了跨任务泛化能力和成功率。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在通用机器人操作方面展现出强大的潜力,但它们在推广到需要跨对象、场景和动作模式迁移相关经验的未见任务时仍然面临挑战。本文提出了VLA-Pro,一个即插即用的框架,旨在通过在训练时存储任务相关的程序记忆,并在推理时迁移这些记忆来增强跨任务泛化能力。具体来说,VLA-Pro将特定于任务的LoRA适配器存储为参数化的程序记忆。在推理时,VLA-Pro基于当前的多模态上下文检索相关的程序记忆,并动态融合这些记忆以生成当前的动作块。在RoboTwin、RLBench和真实世界操作任务上的实验表明,VLA-Pro始终如一地提高了多个骨干网络的跨任务泛化能力,在模拟中实现了高达207%的相对改进,并将真实世界的成功率从5.8%提高到65.0%。这些结果表明,程序记忆检索和适应为将操作经验迁移到新任务提供了一种有效的机制,同时保持了模块化和执行稳定性。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在面对新的机器人操作任务时,难以有效地利用之前学习到的经验,尤其是在对象、场景和动作模式发生变化时,泛化能力不足。现有的方法通常缺乏有效的机制来存储和迁移任务相关的程序知识,导致在新任务上的表现不佳。

核心思路:VLA-Pro的核心思想是将任务相关的经验以程序记忆的形式存储起来,并在推理时根据当前的任务上下文动态地检索和融合这些记忆。通过这种方式,模型可以有效地利用之前学习到的知识,从而提高在新任务上的泛化能力。这种方法类似于人类在解决新问题时会回忆起相关的经验并加以利用。

技术框架:VLA-Pro是一个即插即用的框架,可以与现有的VLA模型结合使用。其主要包含以下几个模块:1) 程序记忆存储:在训练阶段,VLA-Pro为每个任务存储一个LoRA适配器作为程序记忆。2) 程序记忆检索:在推理阶段,VLA-Pro根据当前的多模态上下文(视觉和语言输入)检索相关的程序记忆。3) 程序记忆融合:VLA-Pro将检索到的程序记忆动态地融合,以生成当前的动作块。整个流程可以看作是:输入多模态信息 -> 检索相关程序记忆 -> 融合记忆 -> 生成动作。

关键创新:VLA-Pro的关键创新在于提出了程序记忆检索和适应的机制,用于跨任务迁移操作经验。与现有方法相比,VLA-Pro能够更有效地利用之前学习到的知识,从而提高在新任务上的泛化能力。此外,VLA-Pro的即插即用特性使其可以方便地与现有的VLA模型结合使用。

关键设计:VLA-Pro使用LoRA(Low-Rank Adaptation)适配器作为程序记忆的表示形式。LoRA是一种参数高效的微调方法,可以在不修改原始模型参数的情况下,通过添加少量的可训练参数来适应新的任务。在程序记忆检索方面,VLA-Pro使用基于相似度的检索方法,根据当前的多模态上下文与存储的程序记忆之间的相似度来选择相关的记忆。在程序记忆融合方面,VLA-Pro使用动态加权的方式,根据检索到的程序记忆与当前任务的相关性来调整其权重。

📊 实验亮点

VLA-Pro在RoboTwin、RLBench和真实世界操作任务上进行了评估。实验结果表明,VLA-Pro始终如一地提高了多个骨干网络的跨任务泛化能力,在模拟中实现了高达207%的相对改进,并将真实世界的成功率从5.8%提高到65.0%。这些显著的性能提升表明,程序记忆检索和适应是提高VLA模型泛化能力的一种有效方法。

🎯 应用场景

VLA-Pro具有广泛的应用前景,可应用于各种机器人操作任务,例如家庭服务机器人、工业机器人和医疗机器人。它可以帮助机器人在各种复杂和动态的环境中执行任务,例如物品抓取、装配和导航。通过不断学习和积累经验,VLA-Pro可以使机器人更加智能和自主,从而提高其在实际应用中的效率和可靠性。未来的研究可以探索更有效的程序记忆表示和检索方法,以及更复杂的程序记忆融合策略。

📄 摘要(原文)

Vision-Language-Action~(VLA) models have shown strong potential for general-purpose robotic manipulation, yet they still struggle to generalize to unseen tasks that necessitate transferring relevant experience across objects, scenes, and action patterns. This paper proposes VLA-Pro, a plug-and-play framework designed to enhance cross-task generalization by storing task-relevant procedural memories at training time and transferring these memories during inference. Specifically, VLA-Pro stores task-specific LoRA adapters as parameterized procedural memories during training. At inference time, VLA-Pro retrieves relevant procedural memories based on the current multi-modal context and dynamically fuses these memories for generating the current action chunk. Experiments on RoboTwin, RLBench, and real-world manipulation tasks show that VLA-Pro consistently improves cross-task generalization across multiple backbones, achieving up to a 207% relative improvement in simulation and increasing real-world success rate from 5.8% to 65.0%. These results suggest that procedural memory retrieval and adaptation provide an effective mechanism for transferring manipulation experience to novel tasks while preserving modularity and execution stability.