GLOVER: Generalizable Open-Vocabulary Affordance Reasoning for Task-Oriented Grasping
作者: Teli Ma, Zifan Wang, Jiaming Zhou, Mengmeng Wang, Junwei Liang
分类: cs.RO, cs.CV
发布日期: 2024-11-19 (更新: 2025-05-01)
💡 一句话要点
GLOVER:面向任务导向抓取的通用开放词汇可供性推理框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇抓取 可供性推理 大型语言模型 机器人操作 视觉-语言理解
📋 核心要点
- 现有抓取规划器在开放词汇操作中,面临视觉-语言理解不足和3D建模耗时的问题。
- GLOVER通过微调LLM,在RGB特征空间预测可抓取部分的可供性,实现通用开放词汇推理。
- 实验表明,GLOVER在零件识别和抓取方面均优于现有技术,且速度提升显著。
📝 摘要(中文)
为了使机器人能够进行开放词汇操作,推断任意对象上可供使用的(即可抓取的)部分至关重要。然而,当前的抓取规划器受到有限的视觉-语言理解能力和耗时的3D辐射建模的限制,从而阻碍了与对象的实时、开放词汇交互。为了解决这些限制,我们提出了GLOVER,一个统一的通用开放词汇可供性推理框架,该框架微调大型语言模型(LLM)以预测RGB特征空间内可抓取对象部分的可供性。我们编译了一个包含超过10,000张来自人-物交互的图像数据集,并使用统一的视觉和语言可供性标签进行标注,以实现多模态微调。GLOVER继承了LLM的世界知识和常识推理能力,从而促进了更细粒度的对象理解和复杂的工具使用推理。为了实现有效的实际部署,我们提出了一种可供性感知抓取估计(AGE),这是一种非参数抓取规划器,可将夹持器姿势与从可供性数据导出的超二次曲面对齐。在30个桌面真实场景的评估中,GLOVER在零件识别中实现了86.0%的成功率,在抓取中实现了76.3%的成功率,并且在可供性推理方面的速度比先前的最先进技术快约29倍,在抓取姿势估计方面的速度快约40倍。我们还验证了跨不同机器人形态的泛化能力,证明了其在具有灵巧手的人形机器人中的有效性。
🔬 方法详解
问题定义:现有方法在开放词汇操作中,难以准确识别和抓取目标物体上符合人类指令的可抓取部分。主要痛点在于视觉-语言理解能力不足,无法有效利用语言信息指导抓取;以及3D辐射建模耗时,难以满足实时性要求。
核心思路:利用大型语言模型(LLM)强大的世界知识和常识推理能力,将其与视觉信息相结合,实现对物体可供性的细粒度理解。通过微调LLM,使其能够预测RGB特征空间中可抓取对象部分的可供性,从而指导抓取规划。
技术框架:GLOVER框架主要包含两个阶段:可供性推理和抓取姿势估计。首先,利用微调后的LLM进行可供性推理,预测物体上各个部分的可抓取程度。然后,利用可供性感知抓取估计(AGE)方法,将夹持器姿势与从可供性数据导出的超二次曲面对齐,从而实现抓取姿势的规划。
关键创新:该论文的关键创新在于将大型语言模型引入到抓取规划中,利用LLM的知识和推理能力来增强视觉-语言理解,从而实现更准确、更高效的开放词汇抓取。与现有方法相比,GLOVER无需进行耗时的3D建模,可以直接在RGB图像上进行推理。
关键设计:论文构建了一个包含超过10,000张图像的数据集,并使用统一的视觉和语言可供性标签进行标注,用于LLM的微调。AGE方法使用非参数化的方式进行抓取姿势估计,避免了复杂的参数调整。损失函数的设计旨在优化LLM对可供性的预测,使其能够准确区分可抓取和不可抓取的部分。
🖼️ 关键图片
📊 实验亮点
GLOVER在30个真实场景的评估中,零件识别成功率达到86.0%,抓取成功率达到76.3%。与现有技术相比,GLOVER在可供性推理方面的速度提升了约29倍,在抓取姿势估计方面的速度提升了约40倍。此外,该方法还验证了在不同机器人形态上的泛化能力,表明其具有良好的鲁棒性。
🎯 应用场景
GLOVER框架可应用于各种机器人操作任务,例如家庭服务机器人、工业机器人和医疗机器人。它可以使机器人能够根据人类的指令,灵活地抓取各种物体,从而提高机器人的自主性和适应性。未来,该技术有望应用于更复杂的场景,例如在未知环境中进行物体操作和工具使用。
📄 摘要(原文)
Inferring affordable (i.e., graspable) parts of arbitrary objects based on human specifications is essential for robots advancing toward open-vocabulary manipulation. Current grasp planners, however, are hindered by limited vision-language comprehension and time-consuming 3D radiance modeling, restricting real-time, open-vocabulary interactions with objects. To address these limitations, we propose GLOVER, a unified Generalizable Open-Vocabulary Affordance Reasoning framework, which fine-tunes the Large Language Models (LLMs) to predict the visual affordance of graspable object parts within RGB feature space. We compile a dataset of over 10,000 images from human-object interactions, annotated with unified visual and linguistic affordance labels, to enable multi-modal fine-tuning. GLOVER inherits world knowledge and common-sense reasoning from LLMs, facilitating more fine-grained object understanding and sophisticated tool-use reasoning. To enable effective real-world deployment, we present Affordance-Aware Grasping Estimation (AGE), a non-parametric grasp planner that aligns the gripper pose with a superquadric surface derived from affordance data. In evaluations across 30 table-top real-world scenes, GLOVER achieves success rates of 86.0% in part identification and 76.3% in grasping, with speeds approximately 29 times faster in affordance reasoning and 40 times faster in grasping pose estimation than the previous state-of-the-art. We also validate the generalization across embodiments, showing effectiveness in humanoid robots with dexterous hands.