MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation

作者: Runhao Li, Wenkai Guo, Zhenyu Wu, Changyuan Wang, Haoyuan Deng, Zhenyu Weng, Yap-Peng Tan, Ziwei Wang

分类: cs.RO, cs.CV

发布日期: 2025-11-12

💡 一句话要点

MAP-VLA：利用记忆增强提示，提升VLA模型在机器人操作中的长时任务性能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 机器人操作 视觉-语言-动作模型 长时任务 记忆增强 提示学习 轨迹相似性匹配

📋 核心要点

现有VLA模型在长时机器人操作任务中，由于缺乏记忆机制，难以有效利用历史信息，导致性能受限。
MAP-VLA通过构建记忆库，利用历史演示数据生成可学习的软提示，增强VLA模型的动作生成能力。
实验结果表明，MAP-VLA在模拟和真实机器人环境中均显著提升了长时任务的性能，优于现有方法。

📝 摘要（中文）

预训练的视觉-语言-动作(VLA)模型在提高端到端机器人操作的鲁棒性和泛化性方面取得了显著成功。然而，由于缺乏记忆且仅依赖即时感官输入，这些模型在长时任务中表现不佳。为了解决这一局限性，我们提出了记忆增强提示的视觉-语言-动作模型(MAP-VLA)，这是一个新颖的框架，它利用来自历史演示的记忆提示来增强预训练VLA模型的动作生成能力，从而应对长时机器人操作任务。为此，MAP-VLA首先从历史演示中构建一个记忆库，其中每个记忆单元捕获关于任务特定阶段的信息。这些记忆单元被实现为通过提示调整优化的可学习软提示。然后，在实时任务执行期间，MAP-VLA通过轨迹相似性匹配检索相关记忆，并将其动态集成到VLA模型中，以增强动作生成。重要的是，这种提示调整和检索增强方法作为冻结VLA模型的即插即用模块运行，提供了一种轻量级且灵活的解决方案来提高任务性能。实验结果表明，MAP-VLA在模拟基准测试中实现了高达7.0%的绝对性能提升，在真实机器人评估中实现了25.0%的绝对性能提升，超过了当前最先进的方法。

🔬 方法详解

问题定义：论文旨在解决预训练视觉-语言-动作(VLA)模型在长时机器人操作任务中表现不佳的问题。现有VLA模型主要依赖于即时感官输入，缺乏对历史信息的记忆和利用能力，导致在需要长期规划和复杂状态转移的任务中性能下降。

核心思路：论文的核心思路是利用历史演示数据构建记忆库，并从中提取关键信息作为提示，增强VLA模型的动作生成能力。通过将相关记忆动态地融入到VLA模型中，使其能够更好地理解任务状态，并生成更合理的动作序列。

技术框架：MAP-VLA框架主要包含三个模块：1) 记忆库构建：从历史演示数据中提取任务特定阶段的信息，构建记忆单元，并将其表示为可学习的软提示。2) 记忆检索：在实时任务执行过程中，通过轨迹相似性匹配，从记忆库中检索与当前状态相关的记忆单元。3) 动作生成：将检索到的记忆单元动态地集成到冻结的VLA模型中，增强其动作生成能力。

关键创新：MAP-VLA的关键创新在于利用记忆增强提示来提升VLA模型在长时任务中的性能。与现有方法相比，MAP-VLA无需重新训练整个VLA模型，而是通过轻量级的提示调整和检索增强，即可显著提升任务性能。此外，将记忆单元表示为可学习的软提示，使得模型能够更好地学习和利用历史信息。

关键设计：记忆库中的每个记忆单元都对应于任务的一个特定阶段，通过提示调整进行优化，以最大程度地提高其对动作生成的贡献。轨迹相似性匹配采用合适的距离度量，例如动态时间规整(DTW)，以准确检索相关记忆。VLA模型采用冻结的预训练模型，避免了重新训练的开销，并保证了模型的泛化能力。

📊 实验亮点

MAP-VLA在模拟基准测试中实现了高达7.0%的绝对性能提升，在真实机器人评估中实现了25.0%的绝对性能提升，显著优于当前最先进的方法。这些结果表明，MAP-VLA能够有效利用历史信息，提升VLA模型在长时任务中的性能，具有很强的实用价值。

🎯 应用场景

MAP-VLA具有广泛的应用前景，可应用于各种需要长期规划和复杂状态转移的机器人操作任务，例如装配、烹饪、清洁等。该方法可以显著提高机器人在复杂环境中的适应性和鲁棒性，使其能够更好地完成各种实际任务。未来，该方法还可以扩展到其他领域，例如自动驾驶、智能家居等。

📄 摘要（原文）

Pre-trained Vision-Language-Action (VLA) models have achieved remarkable success in improving robustness and generalization for end-to-end robotic manipulation. However, these models struggle with long-horizon tasks due to their lack of memory and reliance solely on immediate sensory inputs. To address this limitation, we propose Memory-Augmented Prompting for Vision-Language-Action model (MAP-VLA), a novel framework that empowers pre-trained VLA models with demonstration-derived memory prompts to augment action generation for long-horizon robotic manipulation tasks. To achieve this, MAP-VLA first constructs a memory library from historical demonstrations, where each memory unit captures information about a specific stage of a task. These memory units are implemented as learnable soft prompts optimized through prompt tuning. Then, during real-time task execution, MAP-VLA retrieves relevant memory through trajectory similarity matching and dynamically integrates it into the VLA model for augmented action generation. Importantly, this prompt tuning and retrieval augmentation approach operates as a plug-and-play module for a frozen VLA model, offering a lightweight and flexible solution to improve task performance. Experimental results show that MAP-VLA delivers up to 7.0% absolute performance gains in the simulation benchmark and 25.0% on real robot evaluations for long-horizon tasks, surpassing the current state-of-the-art methods.

MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册