PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies
作者: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li
分类: cs.RO, cs.AI, cs.LG
发布日期: 2025-09-22
备注: 11 pages
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
PEEK:利用视觉语言模型引导机器人操作策略实现零样本泛化
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 零样本泛化 视觉语言模型 关键点提取 策略学习
📋 核心要点
- 现有机器人操作策略泛化性差,需同时学习关注点、动作选择和动作执行,负担过重。
- PEEK利用视觉语言模型(VLM)处理高级推理,生成策略无关的关键点表示,减轻策略负担。
- 实验表明,PEEK显著提升了零样本泛化能力,包括模拟到真实的迁移和不同策略架构的迁移。
📝 摘要(中文)
机器人操作策略常常难以泛化,因为它们必须同时学习关注哪里、采取什么行动以及如何执行这些行动。本文提出,关于“哪里”和“什么”的高级推理可以卸载到视觉语言模型(VLM)上,从而使策略专注于“如何”行动。我们提出了PEEK(策略无关的必要关键点提取),它微调VLM来预测统一的基于点的中间表示:1. 指定采取什么行动的末端执行器路径,以及2. 指示关注哪里的任务相关掩码。这些注释直接叠加在机器人观测上,使表示具有策略无关性,并且可以在不同架构之间转移。为了实现可扩展的训练,我们引入了一个自动注释流水线,生成跨越9个机器人实体、20多个机器人数据集的标记数据。在真实世界的评估中,PEEK始终如一地提高了零样本泛化能力,包括仅在模拟中训练的3D策略在真实世界中提高了41.4倍,以及大型VLA和小型操作策略都获得了2-3.5倍的增益。通过让VLM吸收语义和视觉复杂性,PEEK为操作策略提供了它们需要的最小提示——哪里、什么和如何。
🔬 方法详解
问题定义:机器人操作策略的泛化能力不足,主要原因是策略需要同时学习视觉感知、动作规划和控制执行。现有方法通常将这些任务耦合在一起,导致策略难以适应新的环境和任务。尤其是在零样本泛化场景下,策略需要在没有见过的数据上直接执行,这个问题更加突出。
核心思路:PEEK的核心思路是将视觉感知和高级推理的任务卸载到预训练的视觉语言模型(VLM)上,让机器人操作策略专注于学习如何执行动作。通过VLM提取任务相关的关键点和动作路径,作为策略的输入,从而简化了策略的学习难度,提高了泛化能力。这种解耦的设计使得策略可以更加专注于运动控制,而无需从头学习视觉语义信息。
技术框架:PEEK包含一个自动标注流水线和一个基于关键点的操作策略。自动标注流水线利用VLM对机器人数据集进行标注,生成末端执行器路径和任务相关掩码。这些标注信息被叠加到机器人观测上,形成策略的输入。操作策略接收这些输入,并输出机器人的控制指令。整个框架是策略无关的,可以与不同的策略架构结合使用。
关键创新:PEEK的关键创新在于使用VLM生成策略无关的中间表示,即末端执行器路径和任务相关掩码。这种表示方式将视觉语义信息和动作规划信息解耦,使得策略可以更加专注于学习如何执行动作。此外,自动标注流水线使得PEEK可以方便地应用于不同的机器人数据集,提高了可扩展性。
关键设计:PEEK使用微调后的VLM来预测关键点和动作路径。VLM的微调目标是最小化预测的关键点和真实关键点之间的距离,以及预测的动作路径和真实动作路径之间的距离。损失函数通常采用L1或L2损失。网络结构方面,VLM可以使用Transformer或其他常用的视觉语言模型架构。关键参数包括VLM的学习率、微调的epoch数以及关键点的数量。
🖼️ 关键图片
📊 实验亮点
PEEK在真实世界中取得了显著的性能提升。对于仅在模拟中训练的3D策略,PEEK使其在真实世界中的性能提高了41.4倍。此外,对于大型VLA和小型操作策略,PEEK都带来了2-3.5倍的性能增益。这些结果表明,PEEK能够有效地提高机器人操作策略的零样本泛化能力,使其能够在未见过的环境中执行任务。
🎯 应用场景
PEEK具有广泛的应用前景,可以应用于各种机器人操作任务,例如物体抓取、装配、导航等。该方法尤其适用于需要在不同环境和任务之间进行迁移的场景,例如仓库自动化、家庭服务机器人等。通过利用预训练的视觉语言模型,PEEK可以显著降低机器人操作策略的学习成本,提高机器人的智能化水平,加速机器人在实际场景中的应用。
📄 摘要(原文)
Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying what actions to take, and 2. task-relevant masks indicating where to focus. These annotations are directly overlaid onto robot observations, making the representation policy-agnostic and transferable across architectures. To enable scalable training, we introduce an automatic annotation pipeline, generating labeled data across 20+ robot datasets spanning 9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot generalization, including a 41.4x real-world improvement for a 3D policy trained only in simulation, and 2-3.5x gains for both large VLAs and small manipulation policies. By letting VLMs absorb semantic and visual complexity, PEEK equips manipulation policies with the minimal cues they need--where, what, and how. Website at https://peek-robot.github.io/.