Rethinking Intermediate Representation for VLM-based Robot Manipulation

📄 arXiv: 2511.19315v1 📥 PDF

作者: Weiliang Tang, Jialin Gao, Jia-Hui Pan, Gang Wang, Li Erran Li, Yunhui Liu, Mingyu Ding, Pheng-Ann Heng, Chi-Wing Fu

分类: cs.RO

发布日期: 2025-11-24


💡 一句话要点

提出基于VLM的机器人操作语义组装表示SEAM,提升泛化性和可理解性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人操作 视觉语言模型 中间表示 语义组装 开放词汇分割

📋 核心要点

  1. 现有VLM在机器人操作中,中间表示的设计需要在VLM可理解性和任务泛化性之间做出妥协。
  2. 论文提出语义组装表示SEAM,将中间表示解耦为词汇表和语法,兼顾VLM可理解性和泛化能力。
  3. 实验表明,SEAM在动作泛化性和VLM可理解性方面优于主流表示,并在真实世界任务中表现出SOTA性能。

📝 摘要(中文)

视觉-语言模型(VLM)是实现鲁棒机器人操作的重要组成部分。然而,使用VLM将人类指令转换为可执行的中间表示通常需要在VLM可理解性和泛化性之间进行权衡。受上下文无关文法的启发,我们设计了一种名为SEAM的语义组装表示,通过将中间表示分解为词汇表和语法来实现。这使我们能够得到一个简洁的、语义丰富的操作词汇表和一个VLM友好的语法,以处理各种未见过的任务。此外,我们设计了一种新的开放词汇分割范式,采用检索增强的少样本学习策略来定位用于操作的细粒度对象部分,并且在所有最先进的并行工作中实现了最短的推理时间。同时,我们制定了新的动作泛化性和VLM可理解性指标,证明了SEAM在主流表示上的卓越性能。大量的真实世界实验进一步证明了其在不同设置和任务下的SOTA性能。

🔬 方法详解

问题定义:现有基于VLM的机器人操作方法,在将人类指令转化为机器人可执行的中间表示时,面临着VLM可理解性和任务泛化性之间的矛盾。复杂的中间表示虽然能表达丰富的动作,但VLM难以理解;简单的中间表示虽然易于理解,但泛化能力不足。因此,如何设计一种既能被VLM有效理解,又能支持多样化机器人操作任务的中间表示,是本文要解决的核心问题。

核心思路:论文的核心思路是借鉴上下文无关文法的思想,将中间表示解耦为词汇表和语法。词汇表包含一组语义丰富的操作,语法则定义了这些操作的组合方式。这种解耦使得VLM可以专注于理解语法的结构,而无需直接处理复杂的动作序列,从而提高了VLM的可理解性。同时,通过灵活的语法规则,可以组合出各种不同的动作序列,从而提高了任务的泛化能力。

技术框架:SEAM框架主要包含以下几个模块:1)VLM:用于将人类指令转换为语义表示;2)语义组装模块:根据VLM的输出,从词汇表中选择相应的操作,并按照语法规则进行组装,生成中间表示;3)动作执行模块:将中间表示转换为机器人可执行的动作序列,并控制机器人完成任务;4)开放词汇分割模块:用于定位细粒度的对象部分,辅助机器人进行精确操作。该模块采用检索增强的少样本学习策略,以提高分割精度和效率。

关键创新:论文的关键创新在于提出了语义组装表示SEAM,以及相应的解耦设计。SEAM将中间表示分解为词汇表和语法,使得VLM可以更加容易地理解人类指令,并将其转换为机器人可执行的动作。此外,论文还提出了新的动作泛化性和VLM可理解性指标,用于评估不同中间表示的性能。开放词汇分割模块结合了检索增强和少样本学习,提高了分割精度和效率,是另一个重要的技术创新。

关键设计:在词汇表设计方面,论文选择了一组语义丰富的操作,例如“抓取”、“放置”、“移动”等。在语法设计方面,论文采用了一种VLM友好的语法,使得VLM可以更加容易地理解语法的结构。在开放词汇分割模块中,论文采用了对比学习损失函数,以提高分割精度。检索增强模块利用预训练的视觉模型,从大量的图像中检索与当前任务相关的图像,从而提高少样本学习的性能。

📊 实验亮点

实验结果表明,SEAM在动作泛化性和VLM可理解性方面均优于主流表示。在真实世界实验中,SEAM在不同设置和任务下均表现出SOTA性能。此外,开放词汇分割模块在所有最先进的并行工作中实现了最短的推理时间,同时保持了较高的分割精度。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如家庭服务机器人、工业机器人、医疗机器人等。通过使用SEAM表示,机器人可以更加容易地理解人类指令,并完成各种复杂的任务。该研究还有助于推动人机协作技术的发展,使得人类可以更加方便地控制机器人,从而提高生产效率和生活质量。

📄 摘要(原文)

Vision-Language Model (VLM) is an important component to enable robust robot manipulation. Yet, using it to translate human instructions into an action-resolvable intermediate representation often needs a tradeoff between VLM-comprehensibility and generalizability. Inspired by context-free grammar, we design the Semantic Assembly representation named SEAM, by decomposing the intermediate representation into vocabulary and grammar. Doing so leads us to a concise vocabulary of semantically-rich operations and a VLM-friendly grammar for handling diverse unseen tasks. In addition, we design a new open-vocabulary segmentation paradigm with a retrieval-augmented few-shot learning strategy to localize fine-grained object parts for manipulation, effectively with the shortest inference time over all state-of-the-art parallel works. Also, we formulate new metrics for action-generalizability and VLM-comprehensibility, demonstrating the compelling performance of SEAM over mainstream representations on both aspects. Extensive real-world experiments further manifest its SOTA performance under varying settings and tasks.