UniDiffGrasp: A Unified Framework Integrating VLM Reasoning and VLM-Guided Part Diffusion for Open-Vocabulary Constrained Grasping with Dual Arms

作者: Xueyang Guo, Hongwei Hu, Chengye Song, Jiale Chen, Zilin Zhao, Yu Fu, Bowen Guan, Zhenze Liu

分类: cs.RO

发布日期: 2025-05-11

备注: 8 pages, 5 figures

💡 一句话要点

UniDiffGrasp：融合VLM推理与扩散的开放词汇约束双臂抓取框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇抓取 视觉-语言模型 扩散模型 双臂机器人 部件引导 约束抓取 机器人操作 语义理解

📋 核心要点

现有方法在开放词汇场景下，难以利用VLM进行精确的部件级抓取姿态生成，尤其是在存在约束和需要双臂协调时。
UniDiffGrasp通过VLM推理识别语义目标，并利用部件引导扩散为约束抓取扩散场提供几何约束，实现高效的抓取姿态生成。
在真实场景中，UniDiffGrasp在单臂和双臂抓取任务中均显著优于现有方法，验证了其在复杂环境下的抓取能力。

📝 摘要（中文）

本文提出UniDiffGrasp，一个统一的框架，它整合了视觉-语言模型(VLM)推理和引导式部件扩散，以解决开放词汇约束下的双臂抓取问题。现有VLM虽然增强了任务理解，但在定义约束内精确生成抓取姿态和有效双臂协调方面存在困难。UniDiffGrasp利用VLM解释用户输入并识别语义目标（对象、部件、模式），然后通过开放词汇分割进行定位。关键在于，识别出的部件直接为约束抓取扩散场(CGDF)提供几何约束，通过部件引导扩散实现高效、高质量的6自由度抓取，无需重新训练。对于双臂任务，UniDiffGrasp定义不同的目标区域，对每个手臂应用部件引导扩散，并选择稳定的协同抓取姿态。在广泛的真实世界部署中，UniDiffGrasp在单臂和双臂场景中分别实现了0.876和0.767的抓取成功率，显著超越了现有最先进方法，展示了其在复杂真实场景中实现精确和协调的开放词汇抓取的能力。

🔬 方法详解

问题定义：论文旨在解决开放词汇约束下的双臂抓取问题，即根据用户给定的自然语言指令，控制双臂机器人抓取特定物体的特定部件。现有方法的痛点在于，视觉-语言模型虽然能够理解指令，但难以生成满足约束条件且协调的双臂抓取姿态。

核心思路：论文的核心思路是利用视觉-语言模型进行语义理解和目标定位，然后利用扩散模型生成满足几何约束的抓取姿态。通过将VLM的语义理解能力与扩散模型的生成能力相结合，实现精确和协调的开放词汇抓取。

技术框架：UniDiffGrasp框架包含以下几个主要模块：1) VLM推理模块：用于解析用户指令，识别目标物体、部件和抓取模式。2) 开放词汇分割模块：用于在图像中定位目标部件。3) 部件引导扩散模块：利用识别出的部件信息，为约束抓取扩散场(CGDF)提供几何约束。4) 抓取姿态生成模块：利用CGDF生成满足约束条件的6自由度抓取姿态。5) 双臂协调模块：针对双臂任务，定义不同的目标区域，对每个手臂应用部件引导扩散，并选择稳定的协同抓取姿态。

关键创新：最重要的技术创新点在于部件引导扩散，它将VLM的语义理解结果直接转化为扩散模型的几何约束，从而实现高效、高质量的抓取姿态生成。与现有方法相比，UniDiffGrasp无需重新训练即可适应新的物体和任务，具有更强的泛化能力。

关键设计：论文的关键设计包括：1) 使用开放词汇分割模型进行部件定位，避免了对特定物体的训练依赖。2) 设计了约束抓取扩散场(CGDF)，能够根据部件信息生成满足约束条件的抓取姿态。3) 针对双臂任务，设计了双臂协调模块，能够生成稳定的协同抓取姿态。

🖼️ 关键图片

📊 实验亮点

UniDiffGrasp在真实世界部署中取得了显著的成果。在单臂抓取场景中，抓取成功率达到0.876，在双臂抓取场景中，抓取成功率达到0.767。这些结果显著超越了现有最先进的方法，证明了UniDiffGrasp在复杂真实场景中实现精确和协调的开放词汇抓取的能力。

🎯 应用场景

UniDiffGrasp可应用于各种需要精确抓取的场景，如智能制造中的零件装配、家庭服务机器人中的物品整理、医疗机器人中的手术辅助等。该研究的实际价值在于提高了机器人的自主性和灵活性，使其能够根据用户的自然语言指令完成复杂的抓取任务。未来，该技术有望进一步推广到更广泛的机器人应用领域。

📄 摘要（原文）

Open-vocabulary, task-oriented grasping of specific functional parts, particularly with dual arms, remains a key challenge, as current Vision-Language Models (VLMs), while enhancing task understanding, often struggle with precise grasp generation within defined constraints and effective dual-arm coordination. We innovatively propose UniDiffGrasp, a unified framework integrating VLM reasoning with guided part diffusion to address these limitations. UniDiffGrasp leverages a VLM to interpret user input and identify semantic targets (object, part(s), mode), which are then grounded via open-vocabulary segmentation. Critically, the identified parts directly provide geometric constraints for a Constrained Grasp Diffusion Field (CGDF) using its Part-Guided Diffusion, enabling efficient, high-quality 6-DoF grasps without retraining. For dual-arm tasks, UniDiffGrasp defines distinct target regions, applies part-guided diffusion per arm, and selects stable cooperative grasps. Through extensive real-world deployment, UniDiffGrasp achieves grasp success rates of 0.876 in single-arm and 0.767 in dual-arm scenarios, significantly surpassing existing state-of-the-art methods, demonstrating its capability to enable precise and coordinated open-vocabulary grasping in complex real-world scenarios.

UniDiffGrasp: A Unified Framework Integrating VLM Reasoning and VLM-Guided Part Diffusion for Open-Vocabulary Constrained Grasping with Dual Arms

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理