ReCoVLA: VLM-Guided Reward Compilation for Failure Recovery in Vision-Language-Action Policies

作者: Haodi Hu, Chung-Ta Huang, Jing Liu, Ye Wang, Kei Suzuki, Matthew Brand, Toshiaki Koike-Akino

分类: cs.RO, cs.AI, cs.LG

发布日期: 2026-06-08

备注: 19 pages, 7 figures

💡 一句话要点

提出ReCoVLA以解决视觉-语言-动作策略中的失败恢复问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 失败恢复 奖励编译 残差策略 多模态学习

📋 核心要点

现有的视觉-语言-动作策略在面对非正常状态时表现脆弱，缺乏有效的恢复机制。
ReCoVLA通过冻结预训练的VLA策略，利用外部VLM推断失败模式并编译结构化奖励，从而实现有效的失败恢复。
实验结果显示，ReCoVLA在模拟环境中的成功率从36.7%提升至66.7%，在物理零-shot实验中成功率达到61.7%。

📝 摘要（中文）

视觉-语言-动作（VLA）策略为语言条件下的操作提供了强有力的先验，但在非正常状态下的恢复能力较弱。本文提出了ReCoVLA，一个基于失败条件的残差恢复框架，保持预训练的VLA策略不变，利用外部视觉-语言模型（VLM）推断失败模式和恢复阶段，并从任务相关组件中编译结构化奖励。ReCoVLA将VLM作为语义奖励选择器，预测恢复描述符和奖励掩码用于模拟中的残差策略训练，随后实现训练后的零-shot模拟到现实部署。实验表明，ReCoVLA在短期、长期和接触丰富的操作任务中平均优于测试基线。

🔬 方法详解

问题定义：本文旨在解决视觉-语言-动作策略在非正常状态下的恢复问题。现有方法在面对复杂的失败模式时，往往无法有效进行恢复，导致操作失败。

核心思路：ReCoVLA的核心思路是将高层次的失败理解与低层次的纠正控制解耦，通过外部VLM推断失败模式并生成相应的奖励结构，以支持不同的VLA策略。

技术框架：ReCoVLA的整体架构包括三个主要模块：保持不变的预训练VLA策略、外部VLM用于推断失败模式和奖励编译、以及残差策略训练阶段。该框架通过这些模块协同工作，实现有效的失败恢复。

关键创新：ReCoVLA的创新点在于将VLM作为语义奖励选择器，而非直接生成动作或奖励，从而提高了策略的灵活性和适应性。与现有方法相比，这种设计使得高层次的失败理解与低层次的控制策略相互独立。

关键设计：在关键设计方面，ReCoVLA采用了特定的奖励掩码和恢复描述符，以便在模拟训练中有效引导残差策略的学习。此外，损失函数的设计也考虑了任务相关性，以确保训练的有效性。

🖼️ 关键图片

📊 实验亮点

在实验中，ReCoVLA在模拟环境中的平均成功率从36.7%提升至66.7%，显示出显著的性能改进。在物理零-shot实验中，ReCoVLA的成功率达到了61.7%，在所有测试基线中表现最佳，证明了其有效性。

🎯 应用场景

ReCoVLA的研究成果在机器人操作、自动化制造和智能家居等领域具有广泛的应用潜力。通过提高视觉-语言-动作策略在复杂环境中的恢复能力，能够显著提升机器人在实际操作中的灵活性和可靠性，推动智能系统的进一步发展。

📄 摘要（原文）

Vision-language-action (VLA) policies provide strong priors for language-conditioned manipulation, but remain brittle in off-nominal states requiring targeted recovery. We propose ReCoVLA -- a failure-conditioned residual recovery framework that keeps a pretrained VLA policy frozen, uses an external vision-language model (VLM) to infer the failure mode and recovery stage, and compiles a structured reward from task-relevant components. Rather than using the VLM to generate actions or rewards directly, ReCoVLA uses it as a semantic reward selector: it predicts a recovery descriptor and reward mask for in-simulation residual-policy training, followed by zero-shot sim-to-real deployment of the trained recovery policies. This decouples high-level failure understanding from low-level corrective control to support different VLAs. Experiments across short-horizon, long-horizon, and contact-rich manipulation tasks show that ReCoVLA outperforms the tested baselines on average. In simulation, our reward compiler improves average success from 36.7% for the fine-tuned $π_{0.5}$ baseline to 66.7%. In physical zero-shot sim-to-real experiments, ReCoVLA achieves the best average performance, with 61.7% success.

ReCoVLA: VLM-Guided Reward Compilation for Failure Recovery in Vision-Language-Action Policies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理