UniDiffGrasp: A Unified Framework Integrating VLM Reasoning and VLM-Guided Part Diffusion for Open-Vocabulary Constrained Grasping with Dual Arms

📄 arXiv: 2505.06832v1 📥 PDF

作者: Xueyang Guo, Hongwei Hu, Chengye Song, Jiale Chen, Zilin Zhao, Yu Fu, Bowen Guan, Zhenze Liu

分类: cs.RO

发布日期: 2025-05-11

备注: 8 pages, 5 figures


💡 一句话要点

UniDiffGrasp:融合VLM推理与扩散的开放词汇约束双臂抓取框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇抓取 视觉-语言模型 扩散模型 双臂机器人 部件引导 约束抓取 机器人操作 语义理解

📋 核心要点

  1. 现有方法在开放词汇场景下,难以利用VLM进行精确的部件级抓取姿态生成,尤其是在存在约束和需要双臂协调时。
  2. UniDiffGrasp通过VLM推理识别语义目标,并利用部件引导扩散为约束抓取扩散场提供几何约束,实现高效的抓取姿态生成。
  3. 在真实场景中,UniDiffGrasp在单臂和双臂抓取任务中均显著优于现有方法,验证了其在复杂环境下的抓取能力。

📝 摘要(中文)

本文提出UniDiffGrasp,一个统一的框架,它整合了视觉-语言模型(VLM)推理和引导式部件扩散,以解决开放词汇约束下的双臂抓取问题。现有VLM虽然增强了任务理解,但在定义约束内精确生成抓取姿态和有效双臂协调方面存在困难。UniDiffGrasp利用VLM解释用户输入并识别语义目标(对象、部件、模式),然后通过开放词汇分割进行定位。关键在于,识别出的部件直接为约束抓取扩散场(CGDF)提供几何约束,通过部件引导扩散实现高效、高质量的6自由度抓取,无需重新训练。对于双臂任务,UniDiffGrasp定义不同的目标区域,对每个手臂应用部件引导扩散,并选择稳定的协同抓取姿态。在广泛的真实世界部署中,UniDiffGrasp在单臂和双臂场景中分别实现了0.876和0.767的抓取成功率,显著超越了现有最先进方法,展示了其在复杂真实场景中实现精确和协调的开放词汇抓取的能力。

🔬 方法详解

问题定义:论文旨在解决开放词汇约束下的双臂抓取问题,即根据用户给定的自然语言指令,控制双臂机器人抓取特定物体的特定部件。现有方法的痛点在于,视觉-语言模型虽然能够理解指令,但难以生成满足约束条件且协调的双臂抓取姿态。

核心思路:论文的核心思路是利用视觉-语言模型进行语义理解和目标定位,然后利用扩散模型生成满足几何约束的抓取姿态。通过将VLM的语义理解能力与扩散模型的生成能力相结合,实现精确和协调的开放词汇抓取。

技术框架:UniDiffGrasp框架包含以下几个主要模块:1) VLM推理模块:用于解析用户指令,识别目标物体、部件和抓取模式。2) 开放词汇分割模块:用于在图像中定位目标部件。3) 部件引导扩散模块:利用识别出的部件信息,为约束抓取扩散场(CGDF)提供几何约束。4) 抓取姿态生成模块:利用CGDF生成满足约束条件的6自由度抓取姿态。5) 双臂协调模块:针对双臂任务,定义不同的目标区域,对每个手臂应用部件引导扩散,并选择稳定的协同抓取姿态。

关键创新:最重要的技术创新点在于部件引导扩散,它将VLM的语义理解结果直接转化为扩散模型的几何约束,从而实现高效、高质量的抓取姿态生成。与现有方法相比,UniDiffGrasp无需重新训练即可适应新的物体和任务,具有更强的泛化能力。

关键设计:论文的关键设计包括:1) 使用开放词汇分割模型进行部件定位,避免了对特定物体的训练依赖。2) 设计了约束抓取扩散场(CGDF),能够根据部件信息生成满足约束条件的抓取姿态。3) 针对双臂任务,设计了双臂协调模块,能够生成稳定的协同抓取姿态。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniDiffGrasp在真实世界部署中取得了显著的成果。在单臂抓取场景中,抓取成功率达到0.876,在双臂抓取场景中,抓取成功率达到0.767。这些结果显著超越了现有最先进的方法,证明了UniDiffGrasp在复杂真实场景中实现精确和协调的开放词汇抓取的能力。

🎯 应用场景

UniDiffGrasp可应用于各种需要精确抓取的场景,如智能制造中的零件装配、家庭服务机器人中的物品整理、医疗机器人中的手术辅助等。该研究的实际价值在于提高了机器人的自主性和灵活性,使其能够根据用户的自然语言指令完成复杂的抓取任务。未来,该技术有望进一步推广到更广泛的机器人应用领域。

📄 摘要(原文)

Open-vocabulary, task-oriented grasping of specific functional parts, particularly with dual arms, remains a key challenge, as current Vision-Language Models (VLMs), while enhancing task understanding, often struggle with precise grasp generation within defined constraints and effective dual-arm coordination. We innovatively propose UniDiffGrasp, a unified framework integrating VLM reasoning with guided part diffusion to address these limitations. UniDiffGrasp leverages a VLM to interpret user input and identify semantic targets (object, part(s), mode), which are then grounded via open-vocabulary segmentation. Critically, the identified parts directly provide geometric constraints for a Constrained Grasp Diffusion Field (CGDF) using its Part-Guided Diffusion, enabling efficient, high-quality 6-DoF grasps without retraining. For dual-arm tasks, UniDiffGrasp defines distinct target regions, applies part-guided diffusion per arm, and selects stable cooperative grasps. Through extensive real-world deployment, UniDiffGrasp achieves grasp success rates of 0.876 in single-arm and 0.767 in dual-arm scenarios, significantly surpassing existing state-of-the-art methods, demonstrating its capability to enable precise and coordinated open-vocabulary grasping in complex real-world scenarios.