CADGrasp: Learning Contact and Collision Aware General Dexterous Grasping in Cluttered Scenes

📄 arXiv: 2601.15039v1 📥 PDF

作者: Jiyao Zhang, Zhiyuan Ma, Tianhao Wu, Zeyuan Chen, Hao Dong

分类: cs.RO

发布日期: 2026-01-21


💡 一句话要点

CADGrasp:学习杂乱场景中通用灵巧抓取的接触与碰撞感知方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 灵巧抓取 碰撞避免 场景理解 点云处理 扩散模型

📋 核心要点

  1. 灵巧手在杂乱环境中抓取物体面临自由度高、遮挡严重以及潜在碰撞等挑战。
  2. CADGrasp通过预测稀疏IBS表示,并结合occupancy-diffusion模型和能量优化,实现接触和碰撞感知的灵巧抓取。
  3. 实验表明,CADGrasp在模拟和真实环境中均能有效降低碰撞风险,并保持较高的抓取成功率。

📝 摘要(中文)

本文提出CADGrasp,一种用于在杂乱环境中进行通用灵巧抓取的两阶段算法,该算法使用单视角点云输入。第一阶段,预测稀疏IBS(场景解耦、接触和碰撞感知的表示),作为优化目标。稀疏IBS紧凑地编码了灵巧手与场景之间的几何和接触关系,从而实现稳定且无碰撞的灵巧抓取姿态优化。为了增强这种高维表示的预测,引入了具有体素级条件引导和力闭合评分过滤的 occupancy-diffusion 模型。第二阶段,开发了基于稀疏IBS的优化能量函数和排序策略,以生成高质量的灵巧抓取姿态。在模拟和真实环境中的大量实验验证了该方法的有效性,证明了其在各种对象和复杂场景中减轻碰撞并保持高抓取成功率的能力。

🔬 方法详解

问题定义:论文旨在解决杂乱场景中灵巧手抓取的问题。现有方法难以同时处理高自由度、遮挡和碰撞,导致抓取成功率低且容易发生碰撞。现有方法通常依赖大量数据或复杂的后处理,泛化能力有限。

核心思路:论文的核心思路是学习一个场景解耦、接触和碰撞感知的中间表示(Sparse IBS),然后基于此表示进行抓取姿态优化。通过解耦场景,可以更好地泛化到不同的物体和场景布局。接触和碰撞感知能力保证了抓取的稳定性和安全性。

技术框架:CADGrasp算法分为两个阶段:1) 稀疏IBS预测阶段:使用occupancy-diffusion模型预测稀疏IBS,该模型以单视角点云作为输入,并利用体素级条件引导和力闭合评分过滤来提高预测精度。2) 抓取姿态优化阶段:基于预测的稀疏IBS,设计能量函数和排序策略,优化生成高质量的灵巧抓取姿态。

关键创新:论文的关键创新在于提出了稀疏IBS表示,它能够紧凑地编码灵巧手与场景之间的几何和接触关系,并实现场景解耦。此外,使用occupancy-diffusion模型来预测这种高维表示也是一个创新点,它能够有效地利用上下文信息并生成高质量的预测。与现有方法相比,CADGrasp不需要大量的训练数据,并且具有更好的泛化能力。

关键设计:occupancy-diffusion模型使用体素级条件引导,通过将场景的占用信息作为条件输入到扩散模型中,来提高预测精度。力闭合评分过滤用于筛选出具有较高力闭合质量的抓取姿态。能量函数的设计考虑了接触、碰撞和稳定性等因素。具体的网络结构和参数设置在论文中有详细描述,例如扩散模型的具体架构,损失函数的权重等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CADGrasp在模拟和真实环境中均取得了显著的性能提升。在模拟环境中,CADGrasp的抓取成功率优于现有方法,并且能够显著降低碰撞率。在真实环境中,CADGrasp也表现出良好的泛化能力,能够成功抓取各种形状和大小的物体。具体的数据指标和对比结果在论文中有详细展示。

🎯 应用场景

CADGrasp技术可应用于机器人自动化、智能制造、家庭服务等领域。例如,在智能制造中,机器人可以利用该技术在拥挤的工作台上抓取零件;在家庭服务中,机器人可以安全地抓取各种日常物品。该技术有望提高机器人在复杂环境中的操作能力,实现更智能、更高效的自动化。

📄 摘要(原文)

Dexterous grasping in cluttered environments presents substantial challenges due to the high degrees of freedom of dexterous hands, occlusion, and potential collisions arising from diverse object geometries and complex layouts. To address these challenges, we propose CADGrasp, a two-stage algorithm for general dexterous grasping using single-view point cloud inputs. In the first stage, we predict sparse IBS, a scene-decoupled, contact- and collision-aware representation, as the optimization target. Sparse IBS compactly encodes the geometric and contact relationships between the dexterous hand and the scene, enabling stable and collision-free dexterous grasp pose optimization. To enhance the prediction of this high-dimensional representation, we introduce an occupancy-diffusion model with voxel-level conditional guidance and force closure score filtering. In the second stage, we develop several energy functions and ranking strategies for optimization based on sparse IBS to generate high-quality dexterous grasp poses. Extensive experiments in both simulated and real-world settings validate the effectiveness of our approach, demonstrating its capability to mitigate collisions while maintaining a high grasp success rate across diverse objects and complex scenes.