Retrieve-then-Steer: Online Success Memory for Test-Time Adaptation of Generative VLAs
作者: Jianchao Zhao, Huoren Yang, Hu Yusong, Yuyang Gao, Qiguan Ou, Cong Wan, SongLin Dong, Zhiheng Ma, Yihong Gong
分类: cs.RO, cs.AI
发布日期: 2026-05-11
💡 一句话要点
提出Retrieve-then-Steer框架,通过在线成功记忆实现生成式VLA模型的测试时自适应
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 测试时自适应 机器人操作 流匹配 在线记忆 闭环控制
📋 核心要点
- 现有VLA模型在部署时缺乏对环境特定经验的利用,导致在重复性任务中闭环可靠性不足,且难以适应局部环境变化。
- 提出Retrieve-then-Steer框架,通过存储成功经验并将其作为先验,在推理阶段动态引导生成式VLA模型的动作采样过程。
- 实验表明,该方法无需参数更新即可显著提升长程任务的成功率,在仿真与真实机器人操作中展现出更强的闭环稳定性。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在机器人操作中展现出巨大潜力,但在本地部署环境下,其闭环可靠性往往会下降。现有评估通常将测试片段视为独立的零样本试验,忽略了机器人常在相同或缓慢变化的环境中重复操作,而成功的执行记录可作为环境验证的可靠行为模式。本文研究了这种持久部署场景,探讨部分能力受限的冻结VLA模型如何通过重用测试时的成功经验来提升可靠性。我们提出了一种在线成功记忆引导的测试时自适应框架。在部署期间,机器人将经过进度校准的成功观测-动作片段存储在长期记忆中;在推理时,检索状态相关的动作块,通过轨迹级一致性过滤候选者,并将其聚合成精英动作先验。通过引入置信度自适应先验引导,将该先验注入流匹配动作采样器的中间状态,并根据检索置信度调整引导强度。该机制实现了轻量级、非参数化的测试时自适应,无需更新模型参数,在仿真和真实世界实验中显著提升了长程及多阶段任务的成功率与闭环稳定性。
🔬 方法详解
问题定义:论文旨在解决生成式VLA模型在实际部署中因环境差异导致的闭环可靠性下降问题。现有方法多采用零样本推理,未能有效利用机器人重复操作中产生的成功经验来修正当前的动作生成。
核心思路:通过构建“在线成功记忆”机制,将历史成功轨迹转化为环境特定的动作先验。在推理时,利用检索到的经验对生成过程进行“引导(Steer)”,从而在保持模型泛化能力的同时,实现对特定环境的非参数化自适应。
技术框架:系统包含三个核心阶段:1. 记忆构建,存储进度校准后的成功观测-动作片段;2. 检索与过滤,根据当前状态检索相似片段,并通过轨迹一致性剔除噪声;3. 引导生成,将精英动作先验注入流匹配(Flow-matching)采样器的中间状态,并根据检索置信度动态调节引导强度。
关键创新:引入了非参数化的测试时自适应机制,无需对庞大的VLA模型进行微调(Fine-tuning),有效避免了灾难性遗忘,并实现了对环境特定行为模式的实时利用。
关键设计:采用置信度自适应先验引导策略,将检索到的动作先验与生成模型的中间隐状态进行融合,通过置信度加权控制引导强度,确保在检索结果不确定时模型仍能依赖自身的生成能力。
🖼️ 关键图片
📊 实验亮点
实验结果显示,该方法在长程和多阶段机器人操作任务中表现优异。相比于基线模型,Retrieve-then-Steer在保持模型参数冻结的情况下,显著提升了任务成功率,并增强了闭环控制的稳定性。在真实机器人实验中,该方法有效解决了零样本模型在特定环境下的动作漂移问题,验证了其在实际部署中的高效性与鲁棒性。
🎯 应用场景
该技术适用于工业自动化、家庭服务机器人等需要长期在固定或半固定环境中执行重复性任务的场景。通过利用历史成功经验,机器人能更稳健地处理长程、多阶段复杂操作,显著降低部署成本,提升在复杂动态环境下的任务成功率与安全性。
📄 摘要(原文)
Vision-Language-Action (VLA) models show strong potential for general-purpose robotic manipulation, yet their closed-loop reliability often degrades under local deployment conditions. Existing evaluations typically treat test episodes as independent zero-shot trials. However, real robots often operate repeatedly in the same or slowly changing environments, where successful executions provide environment-verified evidence of reliable behavior patterns. We study this persistent-deployment setting, asking whether a partially competent frozen VLA can improve its reliability by reusing its successful test-time experience. We propose an online success-memory guided test-time adaptation framework for generative VLAs. During deployment, the robot stores progress-calibrated successful observation-action segments in a long-term memory. At inference, it retrieves state-relevant action chunks, filters inconsistent candidates via trajectory-level consistency, and aggregates them into an elite action prior. To incorporate this prior into action generation, we introduce confidence-adaptive prior guidance, which injects the elite prior into an intermediate state of the flow-matching action sampler and adjusts the guidance strength based on retrieval confidence. This design allows the frozen VLA to exploit environment-specific successful experience while preserving observation-conditioned generative refinement. This retrieve-then-steer mechanism enables lightweight, non-parametric test-time adaptation without requiring parameter updates. Simulation and real-world experiments show improved task success and closed-loop stability, especially in long-horizon and multi-stage tasks.