ExpReS-VLA: Specializing Vision-Language-Action Models Through Experience Replay and Retrieval

作者: Shahram Najam Syed, Yatharth Ahuja, Arthur Jakobsson, Jeff Ichnowski

分类: cs.RO

发布日期: 2025-11-09

备注: 10 pages, 5 figures, submitted to ICRA 2026. Equal contribution by first two authors

💡 一句话要点

ExpReS-VLA：通过经验回放与检索实现VLA模型在机器人操作任务中的高效特化

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 视觉语言动作模型 经验回放 经验检索 机器人操作 模型特化

📋 核心要点

现有VLA模型在机器人操作任务中泛化能力强，但难以高效适应新环境，在特定任务上表现不稳定。
ExpReS-VLA通过经验回放与检索，利用紧凑特征表示存储经验，并引入阈值混合对比损失，提升模型特化能力。
实验表明，ExpReS-VLA在模拟和真实机器人任务中均显著提升成功率，且适应速度快，具有实际部署价值。

📝 摘要（中文）

本文提出ExpReS-VLA，一种通过经验回放和检索来特化预训练视觉-语言-动作（VLA）模型的方法，旨在防止灾难性遗忘，从而提升模型在特定部署环境下的性能。该方法存储来自冻结视觉骨干网络的紧凑特征表示，而非原始图像-动作对，从而将内存使用量减少约97%。在部署过程中，通过余弦相似度检索相关的历史经验，并利用检索到的经验指导模型适应，同时优先回放成功的轨迹。此外，本文还引入了阈值混合对比损失，从而能够从成功和失败的尝试中进行学习。在LIBERO模拟基准测试中，ExpReS-VLA在空间推理任务上的成功率从82.6%提高到93.1%，在长时程任务上的成功率从61%提高到72.3%。在包含五个操作任务的物理机器人实验中，该方法在已见和未见场景中均达到98%的成功率，而朴素微调的成功率分别为84.7%和32%。使用单个RTX 5090 GPU，通过12个演示进行适应仅需31秒，使得该方法在实际机器人部署中具有可行性。

🔬 方法详解

问题定义：论文旨在解决预训练的视觉-语言-动作（VLA）模型在特定机器人操作任务中，难以高效适应新环境的问题。现有方法通常采用微调，但容易发生灾难性遗忘，导致模型在已学习任务上的性能下降。此外，直接存储原始图像-动作对进行经验回放会消耗大量内存，限制了其在实际机器人应用中的可行性。

核心思路：论文的核心思路是通过经验回放和检索，结合紧凑的特征表示，来指导VLA模型在新环境中的适应。通过存储历史经验，模型可以避免灾难性遗忘，并利用检索到的相关经验来加速学习过程。此外，引入阈值混合对比损失，使得模型能够从成功和失败的尝试中学习，进一步提升学习效率。

技术框架：ExpReS-VLA的整体框架包括以下几个主要模块：1) 特征提取：使用冻结的视觉骨干网络提取图像的紧凑特征表示。2) 经验存储：将提取的特征表示和对应的动作存储到经验池中。3) 经验检索：在部署过程中，使用余弦相似度检索与当前状态相关的历史经验。4) 策略更新：利用检索到的经验和优先经验回放来更新VLA模型的策略。

关键创新：ExpReS-VLA的关键创新点在于：1) 使用紧凑的特征表示来存储经验，显著降低了内存消耗。2) 引入了阈值混合对比损失，使得模型能够从成功和失败的尝试中学习。3) 结合经验回放和检索，实现了高效的模型特化。

关键设计：在特征提取方面，论文使用了预训练的视觉骨干网络，并将其参数冻结，以避免灾难性遗忘。在经验检索方面，使用了余弦相似度来衡量状态之间的相似性。在阈值混合对比损失方面，论文设置了一个阈值，用于区分成功和失败的尝试，并分别计算对比损失。具体而言，损失函数的设计允许模型区分相似的成功轨迹和不同的失败轨迹，从而更好地学习策略。

📊 实验亮点

ExpReS-VLA在LIBERO模拟基准测试中，空间推理任务成功率提升至93.1%，长时程任务提升至72.3%。在真实机器人实验中，已见和未见场景的成功率均达到98%，远高于朴素微调的84.7%和32%。适应过程仅需31秒，证明了其在实际机器人部署中的高效性。

🎯 应用场景

ExpReS-VLA适用于各种需要机器人快速适应新环境的场景，例如智能制造、家庭服务机器人、医疗辅助机器人等。该方法能够显著提升机器人在特定任务上的性能和鲁棒性，降低部署成本，加速机器人技术的商业化落地。未来，该方法可以进一步扩展到更复杂的任务和环境，例如多机器人协作、动态环境等。

📄 摘要（原文）

Vision-Language-Action models such as OpenVLA show impressive zero-shot generalization across robotic manipulation tasks but often fail to adapt efficiently to new deployment environments. In many real-world applications, consistent high performance on a limited set of tasks is more important than broad generalization. We propose ExpReS-VLA, a method for specializing pre-trained VLA models through experience replay and retrieval while preventing catastrophic forgetting. ExpReS-VLA stores compact feature representations from the frozen vision backbone instead of raw image-action pairs, reducing memory usage by approximately 97 percent. During deployment, relevant past experiences are retrieved using cosine similarity and used to guide adaptation, while prioritized experience replay emphasizes successful trajectories. We also introduce Thresholded Hybrid Contrastive Loss, which enables learning from both successful and failed attempts. On the LIBERO simulation benchmark, ExpReS-VLA improves success rates from 82.6 to 93.1 percent on spatial reasoning tasks and from 61 to 72.3 percent on long-horizon tasks. On physical robot experiments with five manipulation tasks, it reaches 98 percent success on both seen and unseen settings, compared to 84.7 and 32 percent for naive fine-tuning. Adaptation takes 31 seconds using 12 demonstrations on a single RTX 5090 GPU, making the approach practical for real robot deployment.

ExpReS-VLA: Specializing Vision-Language-Action Models Through Experience Replay and Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册