ReCoVLA: VLM-Guided Reward Compilation for Failure Recovery in Vision-Language-Action Policies

📄 arXiv: 2606.09630v1 📥 PDF

作者: Haodi Hu, Chung-Ta Huang, Jing Liu, Ye Wang, Kei Suzuki, Matthew Brand, Toshiaki Koike-Akino

分类: cs.RO, cs.AI, cs.LG

发布日期: 2026-06-08

备注: 19 pages, 7 figures


💡 一句话要点

提出ReCoVLA以解决视觉-语言-动作策略中的失败恢复问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 失败恢复 奖励编译 残差策略 多模态学习

📋 核心要点

  1. 现有的视觉-语言-动作策略在面对非正常状态时表现脆弱,缺乏有效的恢复机制。
  2. ReCoVLA通过冻结预训练的VLA策略,利用外部VLM推断失败模式并编译结构化奖励,从而实现有效的失败恢复。
  3. 实验结果显示,ReCoVLA在模拟环境中的成功率从36.7%提升至66.7%,在物理零-shot实验中成功率达到61.7%。

📝 摘要(中文)

视觉-语言-动作(VLA)策略为语言条件下的操作提供了强有力的先验,但在非正常状态下的恢复能力较弱。本文提出了ReCoVLA,一个基于失败条件的残差恢复框架,保持预训练的VLA策略不变,利用外部视觉-语言模型(VLM)推断失败模式和恢复阶段,并从任务相关组件中编译结构化奖励。ReCoVLA将VLM作为语义奖励选择器,预测恢复描述符和奖励掩码用于模拟中的残差策略训练,随后实现训练后的零-shot模拟到现实部署。实验表明,ReCoVLA在短期、长期和接触丰富的操作任务中平均优于测试基线。

🔬 方法详解

问题定义:本文旨在解决视觉-语言-动作策略在非正常状态下的恢复问题。现有方法在面对复杂的失败模式时,往往无法有效进行恢复,导致操作失败。

核心思路:ReCoVLA的核心思路是将高层次的失败理解与低层次的纠正控制解耦,通过外部VLM推断失败模式并生成相应的奖励结构,以支持不同的VLA策略。

技术框架:ReCoVLA的整体架构包括三个主要模块:保持不变的预训练VLA策略、外部VLM用于推断失败模式和奖励编译、以及残差策略训练阶段。该框架通过这些模块协同工作,实现有效的失败恢复。

关键创新:ReCoVLA的创新点在于将VLM作为语义奖励选择器,而非直接生成动作或奖励,从而提高了策略的灵活性和适应性。与现有方法相比,这种设计使得高层次的失败理解与低层次的控制策略相互独立。

关键设计:在关键设计方面,ReCoVLA采用了特定的奖励掩码和恢复描述符,以便在模拟训练中有效引导残差策略的学习。此外,损失函数的设计也考虑了任务相关性,以确保训练的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,ReCoVLA在模拟环境中的平均成功率从36.7%提升至66.7%,显示出显著的性能改进。在物理零-shot实验中,ReCoVLA的成功率达到了61.7%,在所有测试基线中表现最佳,证明了其有效性。

🎯 应用场景

ReCoVLA的研究成果在机器人操作、自动化制造和智能家居等领域具有广泛的应用潜力。通过提高视觉-语言-动作策略在复杂环境中的恢复能力,能够显著提升机器人在实际操作中的灵活性和可靠性,推动智能系统的进一步发展。

📄 摘要(原文)

Vision-language-action (VLA) policies provide strong priors for language-conditioned manipulation, but remain brittle in off-nominal states requiring targeted recovery. We propose ReCoVLA -- a failure-conditioned residual recovery framework that keeps a pretrained VLA policy frozen, uses an external vision-language model (VLM) to infer the failure mode and recovery stage, and compiles a structured reward from task-relevant components. Rather than using the VLM to generate actions or rewards directly, ReCoVLA uses it as a semantic reward selector: it predicts a recovery descriptor and reward mask for in-simulation residual-policy training, followed by zero-shot sim-to-real deployment of the trained recovery policies. This decouples high-level failure understanding from low-level corrective control to support different VLAs. Experiments across short-horizon, long-horizon, and contact-rich manipulation tasks show that ReCoVLA outperforms the tested baselines on average. In simulation, our reward compiler improves average success from 36.7% for the fine-tuned $π_{0.5}$ baseline to 66.7%. In physical zero-shot sim-to-real experiments, ReCoVLA achieves the best average performance, with 61.7% success.