OVGrasp: Open-Vocabulary Grasping Assistance via Multimodal Intent Detection

📄 arXiv: 2509.04324v1 📥 PDF

作者: Chen Hu, Shan Luo, Letizia Gionfrida

分类: cs.RO, cs.CV

发布日期: 2025-09-04


💡 一句话要点

OVGrasp:通过多模态意图检测实现开放词汇抓取辅助

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 抓取辅助 开放词汇 多模态融合 视觉-语言模型 外骨骼 意图检测 零样本学习

📋 核心要点

  1. 现有抓取辅助系统在非结构化环境中,面对多样且不可预测的物体类别和用户意图时,泛化能力不足。
  2. OVGrasp利用视觉-语言基础模型进行开放词汇物体检测,并融合多模态信息进行用户意图推断,提升抓取辅助的鲁棒性。
  3. 实验结果表明,OVGrasp在抓取能力得分上优于现有方法,并能更好地与自然手部运动对齐。

📝 摘要(中文)

本文提出OVGrasp,一个用于软体外骨骼抓取辅助的分层控制框架,它集成了RGB-D视觉、开放词汇提示和语音命令,以实现鲁棒的多模态交互。为了增强在开放环境中的泛化能力,OVGrasp结合了一个具有开放词汇机制的视觉-语言基础模型,允许对先前未见过的物体进行零样本检测,而无需重新训练。一个多模态决策器进一步融合空间和语言线索,以推断用户在多物体场景中的意图,例如抓取或释放。我们在一个定制的以自我为中心的穿戴式外骨骼上部署了完整的框架,并对15个物体进行了三种抓取类型的系统评估。与十名参与者的实验结果表明,OVGrasp实现了87.00%的抓取能力得分(GAS),优于最先进的基线,并实现了与自然手部运动更好的运动学对齐。

🔬 方法详解

问题定义:现有的抓取辅助系统在开放环境中,难以处理未见过的物体类别和复杂的用户意图。它们通常依赖于预定义的物体类别和简单的指令,无法适应真实世界的多样性和不确定性。因此,如何实现对未知物体的零样本抓取,并准确理解用户的多模态意图,是该论文要解决的关键问题。

核心思路:OVGrasp的核心思路是利用视觉-语言基础模型强大的零样本泛化能力,结合多模态信息融合,实现对未知物体的抓取和用户意图的准确理解。通过开放词汇物体检测,系统可以识别未经过训练的物体。通过融合视觉、语言和语音信息,系统可以更准确地推断用户的抓取意图。

技术框架:OVGrasp采用分层控制框架,主要包含以下模块:1) RGB-D视觉感知模块,用于获取场景的深度信息和颜色信息;2) 开放词汇物体检测模块,利用视觉-语言模型检测场景中的物体,并识别其类别;3) 多模态意图决策模块,融合视觉、语言和语音信息,推断用户的抓取意图(例如,抓取哪个物体,执行抓取还是释放操作);4) 外骨骼控制模块,根据意图决策结果,控制外骨骼执行相应的抓取或释放动作。

关键创新:OVGrasp的关键创新在于:1) 引入了开放词汇物体检测机制,实现了对未知物体的零样本抓取;2) 提出了多模态意图决策方法,融合视觉、语言和语音信息,提高了用户意图理解的准确性;3) 将整个框架部署在穿戴式外骨骼上,实现了实际的抓取辅助应用。

关键设计:在开放词汇物体检测模块中,论文采用了CLIP等视觉-语言模型,并结合特定的提示工程(prompt engineering)技术,以提高物体检测的准确性。在多模态意图决策模块中,论文设计了一种融合空间和语义信息的决策机制,利用注意力机制对不同模态的信息进行加权融合。外骨骼控制模块则根据抓取意图,生成相应的运动轨迹,并控制外骨骼的关节运动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OVGrasp在15个物体和3种抓取类型上取得了87.00%的抓取能力得分(GAS),显著优于现有的抓取辅助方法。同时,OVGrasp能够更好地与自然手部运动对齐,提高了抓取的舒适性和自然性。这些结果验证了OVGrasp在开放环境下的抓取辅助能力。

🎯 应用场景

OVGrasp在康复医疗、老年人辅助、残疾人辅助等领域具有广泛的应用前景。它可以帮助运动障碍人士恢复自主生活能力,提高生活质量。此外,该技术还可以应用于工业自动化、机器人操作等领域,实现更灵活、智能的人机协作。

📄 摘要(原文)

Grasping assistance is essential for restoring autonomy in individuals with motor impairments, particularly in unstructured environments where object categories and user intentions are diverse and unpredictable. We present OVGrasp, a hierarchical control framework for soft exoskeleton-based grasp assistance that integrates RGB-D vision, open-vocabulary prompts, and voice commands to enable robust multimodal interaction. To enhance generalization in open environments, OVGrasp incorporates a vision-language foundation model with an open-vocabulary mechanism, allowing zero-shot detection of previously unseen objects without retraining. A multimodal decision-maker further fuses spatial and linguistic cues to infer user intent, such as grasp or release, in multi-object scenarios. We deploy the complete framework on a custom egocentric-view wearable exoskeleton and conduct systematic evaluations on 15 objects across three grasp types. Experimental results with ten participants demonstrate that OVGrasp achieves a grasping ability score (GAS) of 87.00%, outperforming state-of-the-art baselines and achieving improved kinematic alignment with natural hand motion.