Reinforced Embodied Planning with Verifiable Reward for Real-World Robotic Manipulation

作者: Zitong Bo, Yue Hu, Jinming Ma, Mingliang Zhou, Junhui Yin, Yachen Kang, Yuqi Liu, Tong Wu, Diyun Xiang, Hao Chen

分类: cs.RO

发布日期: 2025-09-30

💡 一句话要点

REVER：基于可验证奖励的强化具身规划，用于真实世界机器人操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 机器人操作 视觉-语言模型 强化学习 长程规划

📋 核心要点

现有方法缺乏大规模、序列化的操作数据，难以训练视觉-语言模型（VLM）进行长程操作任务规划。
REVER框架通过训练VLM生成链式思考，进行时空推理，并引入可验证奖励来优化VLM的规划能力。
实验表明，RoboFarseer在性能上可与大型专有模型媲美，并在真实世界任务中显著提升了机器人操作的成功率。

📝 摘要（中文）

本文提出REVER框架，旨在解决具身AI中机器人执行自由形式语言指令的长程操作任务的挑战。REVER框架赋能视觉-语言模型（VLM）在真实世界场景中，从自然语言指令生成并验证长程操作计划。为此，我们训练并发布了RoboFarseer，一个VLM模型，它被激励执行链式思考，进行时间和空间推理，确保物理上合理且逻辑上连贯的计划。为了获取训练数据，我们利用通用操作界面框架捕获原子技能的硬件无关演示，并使用自动标注引擎将每个演示转换为视觉-指令-计划三元组。我们引入了一种可验证奖励，通过其与真实技能序列的有序二分匹配重叠来对生成的计划进行评分。在运行时，微调后的VLM既充当规划器又充当监视器，逐步验证完成情况。RoboFarseer的性能与规模大几个数量级的专有模型相匹配或超过，并且在开放式规划中超过了最佳基线40%以上。在真实世界的长程任务中，完整的系统将整体成功率提高了约60%，而没有规划器的相同底层控制器。

🔬 方法详解

问题定义：论文旨在解决机器人如何根据自然语言指令，在真实世界中执行长程操作任务的问题。现有方法主要痛点在于缺乏足够规模的、包含自然语言指令和多步骤动作计划的序列化操作数据，以及缺乏用于微调VLM的密集且可解释的奖励函数，导致VLM难以生成可靠的操作计划。

核心思路：论文的核心思路是利用VLM作为高层规划器，通过链式思考进行时空推理，生成操作计划，并使用可验证的奖励函数来评估和优化生成的计划。通过这种方式，VLM不仅可以生成计划，还可以作为监视器，验证计划的执行情况。

技术框架：REVER框架包含以下几个主要模块：1) 数据收集：利用通用操作界面框架捕获原子技能的硬件无关演示，并使用自动标注引擎将演示转换为视觉-指令-计划三元组。2) 模型训练：训练RoboFarseer，一个VLM模型，使其能够根据自然语言指令生成操作计划。3) 奖励函数：引入可验证奖励，通过生成的计划与真实技能序列的有序二分匹配重叠来评估计划的质量。4) 运行时验证：使用微调后的VLM作为规划器和监视器，逐步验证计划的完成情况。

关键创新：论文的关键创新在于：1) 提出了REVER框架，将VLM应用于真实世界的机器人操作任务，并使其具备规划和验证能力。2) 引入了可验证奖励，为VLM的训练提供了密集且可解释的反馈信号。3) 构建了RoboFarseer模型，通过链式思考进行时空推理，生成物理上合理且逻辑上连贯的计划。

关键设计：在数据收集方面，使用了通用操作界面框架，保证数据的硬件无关性。在模型训练方面，使用了链式思考的方法，使VLM能够进行更复杂的推理。在奖励函数方面，使用了有序二分匹配重叠，能够更准确地评估计划的质量。具体参数设置和网络结构在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

RoboFarseer在性能上与规模大几个数量级的专有模型相匹配或超过，并且在开放式规划中超过了最佳基线40%以上。在真实世界的长程任务中，完整的系统将整体成功率提高了约60%，而没有规划器的相同底层控制器。这些结果表明，REVER框架和RoboFarseer模型在真实世界机器人操作任务中具有显著的优势。

🎯 应用场景

该研究成果可应用于各种需要机器人执行复杂操作任务的场景，例如智能家居、工业自动化、医疗辅助等。通过自然语言指令，用户可以轻松地指导机器人完成各种任务，提高工作效率和生活质量。未来，该技术有望进一步发展，实现更智能、更自主的机器人操作。

📄 摘要（原文）

Enabling robots to execute long-horizon manipulation tasks from free-form language instructions remains a fundamental challenge in embodied AI. While vision-language models (VLMs) have shown promise as high-level planners, their deployment in the real world is hindered by two gaps: (i) the scarcity of large-scale, sequential manipulation data that couples natural language with multi-step action plans, and (ii) the absence of dense, interpretable rewards for fine-tuning VLMs on planning objectives. To address these issues, we propose REVER, a framework that empowers VLMs to generate and validate long-horizon manipulation plans from natural language instructions in real-world scenarios. Under REVER we train and release RoboFarseer, a VLM incentivized to emit chain-of-thought that perform temporal and spatial reasoning, ensuring physically plausible and logically coherent plans. To obtain training data, we leverage the Universal Manipulation Interface framework to capture hardware-agnostic demonstrations of atomic skills. An automated annotation engine converts each demonstration into vision-instruction-plan triplet. We introduce a verifiable reward that scores the generated plan by its ordered bipartite matching overlap with the ground-truth skill sequence. At run time, the fine-tuned VLM functions both as a planner and as a monitor, verifying step-wise completion. RoboFarseer matches or exceeds the performance of proprietary models that are orders of magnitude larger, while on open-ended planning it surpasses the best baseline by more than 40%. In real-world, long-horizon tasks, the complete system boosts overall success by roughly 60% compared with the same low-level controller without the planner. We will open-source both the dataset and the trained model upon publication.

Reinforced Embodied Planning with Verifiable Reward for Real-World Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理