Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

作者: Sangoh Lee, Sangwoo Mo, Wook-Shin Han

分类: cs.RO, cs.AI

发布日期: 2025-12-23 (更新: 2026-01-29)

备注: Project page with videos and code: https://vap-project.github.io/

💡 一句话要点

提出视觉注意力提示VAP，解决VLA模型在个性化指令下的物体操作难题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 个性化指令 视觉注意力提示 物体操作 机器人

📋 核心要点

VLA模型在处理个性化指令时，难以区分视觉相似但属于不同用户的物体，导致操作失败。
提出视觉注意力提示（VAP），利用少量参考图像作为视觉记忆，引导模型关注用户指定的特定物体。
在模拟和真实环境的多个基准测试中，VAP显著提升了成功率和正确物体操作的性能，优于现有方法。

📝 摘要（中文）

视觉-语言-动作(VLA)模型在通用指令上表现良好，但在个性化指令（如“拿我的杯子”）方面表现不佳，因为机器人必须在视觉上相似的物体中操作特定实例。本文研究了操作个人物品的场景，其中VLA必须仅使用少量参考图像来识别和控制训练期间未见过的用户特定对象。为了应对这一挑战，我们提出了一种简单而有效的免训练感知适配器——视觉注意力提示(VAP)，它为冻结的VLA配备了自上而下的选择性注意力。VAP将参考图像视为非参数视觉记忆，通过开放词汇检测和基于嵌入的匹配将个人对象定位在场景中，然后通过突出显示对象并重写指令，将此定位作为视觉提示注入。我们构建了两个模拟基准测试 Personalized-SIMPLER 和 Personalized-VLABench，以及一个真实世界的桌面基准测试，以评估跨多个机器人和任务的个性化操作。实验表明，VAP在成功率和正确的物体操作方面始终优于通用策略和token-learning基线，有助于弥合语义理解和实例级控制之间的差距。

🔬 方法详解

问题定义：现有视觉-语言-动作(VLA)模型在处理通用指令时表现良好，但当指令需要操作特定用户拥有的物体时，例如“拿我的杯子”，模型难以区分场景中多个视觉相似的杯子，从而导致操作失败。现有方法缺乏对用户个性化信息的有效利用，无法将语义理解与实例级别的控制联系起来。

核心思路：论文的核心思路是将少量用户提供的目标物体参考图像作为视觉提示，引导VLA模型关注场景中与参考图像匹配的特定物体。通过这种方式，模型可以利用视觉信息来区分不同的个体，从而实现个性化的物体操作。这种方法无需重新训练VLA模型，而是通过一个轻量级的适配器来实现。

技术框架：VAP框架包含以下几个主要阶段：1) 开放词汇物体检测：使用预训练的开放词汇物体检测器识别场景中的所有物体。2) 嵌入匹配：将检测到的物体和参考图像嵌入到同一特征空间中，并计算它们之间的相似度。3) 视觉提示注入：根据相似度得分，突出显示与参考图像最匹配的物体，并重写指令，将物体的位置信息融入指令中。4) VLA模型执行：将修改后的指令输入到冻结的VLA模型中，执行相应的动作。

关键创新：VAP的关键创新在于它是一种免训练的感知适配器，可以有效地将视觉信息融入到VLA模型中，而无需重新训练模型。它通过将参考图像作为视觉记忆，并利用注意力机制来引导模型关注特定的物体，从而实现了个性化的物体操作。与现有方法相比，VAP更加灵活和高效，可以应用于各种不同的VLA模型和任务。

关键设计：VAP的关键设计包括：1) 使用预训练的CLIP模型提取图像和文本的特征。2) 使用余弦相似度来计算物体和参考图像之间的相似度。3) 使用高斯核函数对相似度得分进行平滑处理，以提高鲁棒性。4) 通过在原始图像上叠加一个高斯模糊的掩码来突出显示目标物体。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VAP在个性化SIMPLER和个性化VLABench两个模拟基准测试以及真实世界的桌面基准测试中，均显著优于通用策略和token-learning基线。例如，在某些任务中，VAP的成功率比基线方法提高了20%以上，并且能够更准确地操作目标物体。

🎯 应用场景

该研究成果可应用于家庭服务机器人、辅助机器人等领域，使机器人能够根据用户的个性化指令完成特定任务，例如为用户递送指定的物品、整理个人物品等。这项技术还可以扩展到其他需要区分个体差异的应用场景，例如智能安防、智能医疗等，具有广阔的应用前景。

📄 摘要（原文）

While Vision-Language-Action (VLA) models generalize well to generic instructions, they struggle with personalized commands such as "bring my cup," where the robot must act on one specific instance among visually similar objects. We study this setting of manipulating personal objects, in which a VLA must identify and control a user-specific object unseen during training using only a few reference images. To address this challenge, we propose Visual Attentive Prompting (VAP), a simple-yet-effective training-free perceptual adapter that equips frozen VLAs with top-down selective attention. VAP treats the reference images as a non-parametric visual memory, grounds the personal object in the scene through open-vocabulary detection and embedding-based matching, and then injects this grounding as a visual prompt by highlighting the object and rewriting the instruction. We construct two simulation benchmarks, Personalized-SIMPLER and Personalized-VLABench, and a real-world tabletop benchmark to evaluate personalized manipulation across multiple robots and tasks. Experiments show that VAP consistently outperforms generic policies and token-learning baselines in both success rate and correct-object manipulation, helping to bridge the gap between semantic understanding and instance-level control.

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理