OVGrasp: Open-Vocabulary Grasping Assistance via Multimodal Intent Detection

作者: Chen Hu, Shan Luo, Letizia Gionfrida

分类: cs.RO, cs.CV

发布日期: 2025-09-04

💡 一句话要点

OVGrasp：通过多模态意图检测实现开放词汇抓取辅助

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 抓取辅助 开放词汇 多模态融合 视觉-语言模型 零样本学习

📋 核心要点

现有抓取辅助系统在非结构化环境中泛化能力不足，难以处理未见过的物体和复杂的用户意图。
OVGrasp利用视觉-语言基础模型进行开放词汇物体检测，并融合多模态信息进行意图推断，提升了抓取辅助的鲁棒性。
实验表明，OVGrasp在抓取能力得分上优于现有方法，并能更好地模拟自然手部运动，提升用户体验。

📝 摘要（中文）

本文提出OVGrasp，一个用于软体外骨骼抓取辅助的分层控制框架，旨在帮助运动障碍人士恢复自主能力，尤其是在物体类别和用户意图多样且不可预测的非结构化环境中。OVGrasp集成了RGB-D视觉、开放词汇提示和语音命令，以实现鲁棒的多模态交互。为了增强在开放环境中的泛化能力，OVGrasp采用了一个具有开放词汇机制的视觉-语言基础模型，允许对先前未见过的物体进行零样本检测，无需重新训练。一个多模态决策器进一步融合空间和语言线索，以推断用户在多物体场景中的意图，例如抓取或释放。该框架部署在一个定制的以自我为中心的穿戴式外骨骼上，并在15个物体上进行了三种抓取类型的系统评估。实验结果表明，OVGrasp实现了87.00%的抓取能力得分（GAS），优于最先进的基线，并实现了与自然手部运动更好的运动学对齐。

🔬 方法详解

问题定义：现有的抓取辅助系统在开放环境中面临挑战，主要体现在两个方面：一是物体种类繁多，难以预先定义所有物体类别；二是用户意图复杂，需要根据场景和指令进行准确判断。传统方法依赖于预定义的物体类别和固定的抓取策略，难以适应未知的物体和动态的用户意图。因此，如何实现对未知物体的零样本抓取，并根据多模态信息准确推断用户意图，是本文要解决的关键问题。

核心思路：OVGrasp的核心思路是利用视觉-语言模型强大的零样本学习能力，以及多模态融合的优势，实现对未知物体的抓取辅助。通过视觉-语言模型，系统可以识别未见过的物体，并根据物体的视觉特征生成抓取建议。同时，系统融合语音命令和视觉信息，推断用户的抓取意图，从而选择合适的抓取策略。这种方法的核心在于将视觉和语言信息结合起来，实现更智能、更灵活的抓取辅助。

技术框架：OVGrasp采用分层控制框架，主要包含以下几个模块：1) RGB-D视觉模块：用于获取场景的深度信息和彩色图像；2) 开放词汇物体检测模块：利用视觉-语言模型检测场景中的物体，并识别其类别；3) 语音命令识别模块：识别用户的语音命令，例如“抓取”或“释放”；4) 多模态意图决策模块：融合视觉信息和语音命令，推断用户的抓取意图；5) 抓取控制模块：根据用户意图和物体信息，控制外骨骼进行抓取或释放操作。整个流程从视觉和语音信息的获取开始，经过物体检测、意图推断，最终实现抓取控制。

关键创新：OVGrasp最重要的技术创新点在于将开放词汇物体检测和多模态意图决策相结合，实现了对未知物体的零样本抓取辅助。与传统方法相比，OVGrasp不需要预先训练物体类别，可以直接利用视觉-语言模型的知识进行物体识别。此外，OVGrasp通过融合视觉和语音信息，可以更准确地推断用户意图，从而选择合适的抓取策略。这种方法大大提高了抓取辅助系统的泛化能力和灵活性。

关键设计：在开放词汇物体检测模块中，使用了CLIP等视觉-语言模型，并结合了mask-rcnn等目标检测算法，实现了对未知物体的检测和分割。在多模态意图决策模块中，使用了注意力机制，对视觉和语音信息进行加权融合，从而更准确地推断用户意图。此外，在抓取控制模块中，设计了一种基于力反馈的控制策略，可以根据物体的形状和重量，调整抓取力度，从而实现更稳定的抓取。

📊 实验亮点

OVGrasp在15个物体上进行了三种抓取类型的系统评估，实验结果表明，OVGrasp实现了87.00%的抓取能力得分（GAS），显著优于现有基线方法。此外，实验还表明，OVGrasp能够更好地模拟自然手部运动，提升用户体验。这些结果表明，OVGrasp在开放环境下的抓取辅助方面具有显著优势。

🎯 应用场景

OVGrasp技术可应用于辅助残疾人、老年人等行动不便的人群，帮助他们完成日常生活中的抓取任务，提高生活质量。此外，该技术还可应用于工业自动化领域，例如在机器人分拣、装配等任务中，实现对未知物体的抓取和操作。未来，随着视觉-语言模型的不断发展，OVGrasp有望在更广泛的领域得到应用，例如智能家居、医疗康复等。

📄 摘要（原文）

Grasping assistance is essential for restoring autonomy in individuals with motor impairments, particularly in unstructured environments where object categories and user intentions are diverse and unpredictable. We present OVGrasp, a hierarchical control framework for soft exoskeleton-based grasp assistance that integrates RGB-D vision, open-vocabulary prompts, and voice commands to enable robust multimodal interaction. To enhance generalization in open environments, OVGrasp incorporates a vision-language foundation model with an open-vocabulary mechanism, allowing zero-shot detection of previously unseen objects without retraining. A multimodal decision-maker further fuses spatial and linguistic cues to infer user intent, such as grasp or release, in multi-object scenarios. We deploy the complete framework on a custom egocentric-view wearable exoskeleton and conduct systematic evaluations on 15 objects across three grasp types. Experimental results with ten participants demonstrate that OVGrasp achieves a grasping ability score (GAS) of 87.00%, outperforming state-of-the-art baselines and achieving improved kinematic alignment with natural hand motion.

OVGrasp: Open-Vocabulary Grasping Assistance via Multimodal Intent Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册