Score the Steps, Not Just the Goal: VLM-Based Subgoal Evaluation for Robotic Manipulation

作者: Ramy ElMallah, Krish Chhajer, Chi-Guhn Lee

分类: cs.AI, cs.RO

发布日期: 2025-09-23

备注: Accepted to the CoRL 2025 Eval&Deploy Workshop

💡 一句话要点

提出StepEval框架，利用VLM评估机器人操作子目标成功率，提升策略评估粒度。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 机器人操作 策略评估 视觉语言模型 子目标评估 自动化评估

📋 核心要点

现有机器人学习评估方法仅关注最终成功率，忽略了中间步骤的成败，导致策略改进缺乏细粒度指导。
StepEval框架利用视觉语言模型自动评估机器人操作的子目标成功率，提供更细致的策略评估信息。
StepEval旨在成为一个开放、可扩展的社区项目，鼓励贡献，以标准化机器人操作策略的评估流程。

📝 摘要（中文）

机器人学习论文通常只报告一个二元成功率(SR)，这掩盖了策略在多步骤操作任务中成功或失败的具体环节。我们认为应该常规化子目标级别的报告：对于每个轨迹，提供一个子目标SR向量，以显示部分能力（例如，抓取与倾倒）。我们提出了StepEval的蓝图，这是一个成本感知的插件式评估框架，它利用视觉语言模型(VLM)作为自动化裁判，从记录的图像或视频中评估子目标的结果。我们的贡献是概述了一个可扩展的、社区驱动的开源项目的设计原则，而不是提出新的基准或API。在StepEval中，策略评估的主要产物是每个子目标的SR向量；但是，其他量（例如，延迟或成本估计）也被考虑用于框架优化诊断，以帮助社区在地面真实子目标成功标签可用时调整评估效率和准确性。我们讨论了这样的框架如何保持模型无关性，支持单视图或多视图输入，并且足够轻量级，以便在各个实验室中采用。旨在贡献一个共同的方向：一个最小的、可扩展的种子，邀请开源贡献，从而使评估步骤而不仅仅是最终目标成为一种标准和可重复的实践。

🔬 方法详解

问题定义：现有机器人操作策略评估主要依赖于最终结果的二元成功率，无法反映策略在多步骤任务中的具体表现。这种评估方式的痛点在于，即使最终失败，也无法得知策略在哪一步骤出现问题，阻碍了策略的有效改进。例如，一个抓取-放置任务失败，可能是抓取失败，也可能是放置失败，但仅凭最终结果无法区分。

核心思路：StepEval的核心思路是将复杂的机器人操作任务分解为多个子目标，并利用视觉语言模型(VLM)自动评估每个子目标的成功率。通过分析每个子目标的成功率，可以更清晰地了解策略的优势和不足，从而更有针对性地进行改进。这种方法类似于对机器人操作进行“分步打分”，而非仅仅关注最终结果。

技术框架：StepEval框架主要包含以下几个模块：1) 任务分解模块：将复杂任务分解为一系列明确的子目标。2) 数据收集模块：记录机器人操作过程中的图像或视频数据。3) VLM评估模块：利用VLM对每个子目标的图像或视频进行分析，判断其是否成功。4) 结果报告模块：生成每个子目标的成功率向量，以及其他相关指标（如延迟、成本等）。整体流程是从任务分解开始，收集数据，然后使用VLM进行评估，最后生成报告。

关键创新：StepEval的关键创新在于利用VLM作为自动化裁判，对机器人操作的子目标进行评估。与传统的基于人工标注或预定义规则的评估方法相比，VLM具有更强的泛化能力和适应性，可以处理更复杂的场景和任务。此外，StepEval框架的设计目标是模型无关的，可以支持不同的VLM模型和输入形式（单视图或多视图）。

关键设计：StepEval框架的关键设计包括：1) 成本感知的评估策略：在评估过程中考虑计算成本和评估准确率之间的平衡。2) 可扩展的架构：方便用户添加新的子目标、VLM模型和评估指标。3) 开放的API：鼓励社区贡献和共享评估资源。具体参数设置和损失函数取决于所使用的VLM模型，框架本身并不限定特定的模型或参数。

📊 实验亮点

StepEval框架的核心优势在于利用VLM实现了子目标级别的自动化评估，无需人工标注，降低了评估成本。虽然论文没有提供具体的性能数据，但强调了框架的通用性和可扩展性，旨在鼓励社区贡献，共同提升机器人操作策略评估的水平。

🎯 应用场景

StepEval框架可广泛应用于机器人操作策略的开发、测试和评估。例如，可以用于改进机器人在家庭、工厂、医疗等场景中的操作能力。通过提供细粒度的评估结果，StepEval可以帮助研究人员和工程师更有效地设计和优化机器人策略，加速机器人技术的应用。

📄 摘要（原文）

Robot learning papers typically report a single binary success rate (SR), which obscures where a policy succeeds or fails along a multi-step manipulation task. We argue that subgoal-level reporting should become routine: for each trajectory, a vector of per-subgoal SRs that makes partial competence visible (e.g., grasp vs. pour). We propose a blueprint for StepEval, a cost-aware plug-in evaluation framework that utilizes vision-language models (VLMs) as automated judges of subgoal outcomes from recorded images or videos. Rather than proposing new benchmarks or APIs, our contribution is to outline design principles for a scalable, community-driven open-source project. In StepEval, the primary artifact for policy evaluation is the per-subgoal SR vector; however, other quantities (e.g., latency or cost estimates) are also considered for framework-optimization diagnostics to help the community tune evaluation efficiency and accuracy when ground-truth subgoal success labels are available. We discuss how such a framework can remain model-agnostic, support single- or multi-view inputs, and be lightweight enough to adopt across labs. The intended contribution is a shared direction: a minimal, extensible seed that invites open-source contributions, so that scoring the steps, not just the final goal, becomes a standard and reproducible practice.

Score the Steps, Not Just the Goal: VLM-Based Subgoal Evaluation for Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册