GLOVER: Generalizable Open-Vocabulary Affordance Reasoning for Task-Oriented Grasping

作者: Teli Ma, Zifan Wang, Jiaming Zhou, Mengmeng Wang, Junwei Liang

分类: cs.RO, cs.CV

发布日期: 2024-11-19 (更新: 2025-05-01)

💡 一句话要点

GLOVER：面向任务导向抓取的通用开放词汇可供性推理框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱五：交互与反应 (Interaction & Reaction) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放词汇抓取 可供性推理 大型语言模型 机器人操作 视觉-语言理解

📋 核心要点

现有抓取规划器在开放词汇操作中，面临视觉-语言理解不足和3D建模耗时的问题。
GLOVER通过微调LLM，在RGB特征空间预测可抓取部分的可供性，实现通用开放词汇推理。
实验表明，GLOVER在零件识别和抓取方面均优于现有技术，且速度提升显著。

📝 摘要（中文）

为了使机器人能够进行开放词汇操作，推断任意对象上可供使用的（即可抓取的）部分至关重要。然而，当前的抓取规划器受到有限的视觉-语言理解能力和耗时的3D辐射建模的限制，从而阻碍了与对象的实时、开放词汇交互。为了解决这些限制，我们提出了GLOVER，一个统一的通用开放词汇可供性推理框架，该框架微调大型语言模型（LLM）以预测RGB特征空间内可抓取对象部分的可供性。我们编译了一个包含超过10,000张来自人-物交互的图像数据集，并使用统一的视觉和语言可供性标签进行标注，以实现多模态微调。GLOVER继承了LLM的世界知识和常识推理能力，从而促进了更细粒度的对象理解和复杂的工具使用推理。为了实现有效的实际部署，我们提出了一种可供性感知抓取估计（AGE），这是一种非参数抓取规划器，可将夹持器姿势与从可供性数据导出的超二次曲面对齐。在30个桌面真实场景的评估中，GLOVER在零件识别中实现了86.0%的成功率，在抓取中实现了76.3%的成功率，并且在可供性推理方面的速度比先前的最先进技术快约29倍，在抓取姿势估计方面的速度快约40倍。我们还验证了跨不同机器人形态的泛化能力，证明了其在具有灵巧手的人形机器人中的有效性。

🔬 方法详解

问题定义：现有方法在开放词汇操作中，难以准确识别和抓取目标物体上符合人类指令的可抓取部分。主要痛点在于视觉-语言理解能力不足，无法有效利用语言信息指导抓取；以及3D辐射建模耗时，难以满足实时性要求。

核心思路：利用大型语言模型（LLM）强大的世界知识和常识推理能力，将其与视觉信息相结合，实现对物体可供性的细粒度理解。通过微调LLM，使其能够预测RGB特征空间中可抓取对象部分的可供性，从而指导抓取规划。

技术框架：GLOVER框架主要包含两个阶段：可供性推理和抓取姿势估计。首先，利用微调后的LLM进行可供性推理，预测物体上各个部分的可抓取程度。然后，利用可供性感知抓取估计（AGE）方法，将夹持器姿势与从可供性数据导出的超二次曲面对齐，从而实现抓取姿势的规划。

关键创新：该论文的关键创新在于将大型语言模型引入到抓取规划中，利用LLM的知识和推理能力来增强视觉-语言理解，从而实现更准确、更高效的开放词汇抓取。与现有方法相比，GLOVER无需进行耗时的3D建模，可以直接在RGB图像上进行推理。

关键设计：论文构建了一个包含超过10,000张图像的数据集，并使用统一的视觉和语言可供性标签进行标注，用于LLM的微调。AGE方法使用非参数化的方式进行抓取姿势估计，避免了复杂的参数调整。损失函数的设计旨在优化LLM对可供性的预测，使其能够准确区分可抓取和不可抓取的部分。

🖼️ 关键图片

📊 实验亮点

GLOVER在30个真实场景的评估中，零件识别成功率达到86.0%，抓取成功率达到76.3%。与现有技术相比，GLOVER在可供性推理方面的速度提升了约29倍，在抓取姿势估计方面的速度提升了约40倍。此外，该方法还验证了在不同机器人形态上的泛化能力，表明其具有良好的鲁棒性。

🎯 应用场景

GLOVER框架可应用于各种机器人操作任务，例如家庭服务机器人、工业机器人和医疗机器人。它可以使机器人能够根据人类的指令，灵活地抓取各种物体，从而提高机器人的自主性和适应性。未来，该技术有望应用于更复杂的场景，例如在未知环境中进行物体操作和工具使用。

📄 摘要（原文）

Inferring affordable (i.e., graspable) parts of arbitrary objects based on human specifications is essential for robots advancing toward open-vocabulary manipulation. Current grasp planners, however, are hindered by limited vision-language comprehension and time-consuming 3D radiance modeling, restricting real-time, open-vocabulary interactions with objects. To address these limitations, we propose GLOVER, a unified Generalizable Open-Vocabulary Affordance Reasoning framework, which fine-tunes the Large Language Models (LLMs) to predict the visual affordance of graspable object parts within RGB feature space. We compile a dataset of over 10,000 images from human-object interactions, annotated with unified visual and linguistic affordance labels, to enable multi-modal fine-tuning. GLOVER inherits world knowledge and common-sense reasoning from LLMs, facilitating more fine-grained object understanding and sophisticated tool-use reasoning. To enable effective real-world deployment, we present Affordance-Aware Grasping Estimation (AGE), a non-parametric grasp planner that aligns the gripper pose with a superquadric surface derived from affordance data. In evaluations across 30 table-top real-world scenes, GLOVER achieves success rates of 86.0% in part identification and 76.3% in grasping, with speeds approximately 29 times faster in affordance reasoning and 40 times faster in grasping pose estimation than the previous state-of-the-art. We also validate the generalization across embodiments, showing effectiveness in humanoid robots with dexterous hands.

GLOVER: Generalizable Open-Vocabulary Affordance Reasoning for Task-Oriented Grasping

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理