End-to-End Dexterous Grasp Learning from Single-View Point Clouds via a Multi-Object Scene Dataset

作者: Tao Geng, Dapeng Yang, Ziwei Liu, Le Zhang, Le Qi, WangYang Li, Yi Ren, Shan Luo, Fenglei Ni

分类: cs.RO

发布日期: 2026-03-16

备注: 10 pages, 6 figures. Submitted to IEEE Transactions on Automation Science and Engineering (T-ASE)

🔗 代码/项目: GITHUB

💡 一句话要点

提出DGS-Net，解决多物体场景下单目点云的灵巧抓取学习问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱四：生成式动作 (Generative Motion)

关键词: 灵巧抓取 多物体场景 单目点云 端到端学习 机器人操作

📋 核心要点

现有抓取数据集主要集中于单物体场景和预定义的抓取配置，忽略了环境干扰和灵巧预抓取姿势的建模，限制了其在现实世界应用中的泛化能力。
论文提出DGS-Net，通过显式建模抓取偏移和预抓取配置，从单目点云中学习多物体场景下的密集抓取配置，从而实现更鲁棒和准确的抓取。
实验结果表明，DGS-Net在仿真和真实机器人平台上均取得了优异的抓取成功率，并表现出较低的穿透率，验证了其有效性和泛化能力。

📝 摘要（中文）

本文提出了一种名为DGS-Net的端到端抓取预测网络，该网络能够从多物体场景的单目点云中学习密集的抓取配置。为了支持该网络，作者提出了一种两阶段抓取数据生成策略，该策略从密集的单物体抓取合成过渡到密集的场景级抓取生成。构建的数据集包含307个物体、240个多物体场景以及超过35万个经过验证的抓取。通过显式地建模抓取偏移和预抓取配置，该数据集为灵巧抓取学习提供了更鲁棒和准确的监督。实验结果表明，DGS-Net在仿真环境中实现了88.63%的抓取成功率，在真实机器人平台上实现了78.98%的抓取成功率，同时表现出较低的穿透率，平均穿透深度为0.375毫米，穿透体积为559.45立方毫米，优于现有方法，并展示了强大的有效性和泛化能力。数据集已开源。

🔬 方法详解

问题定义：论文旨在解决多物体场景下，机器人如何仅通过单目点云数据学习到有效的灵巧抓取策略的问题。现有方法主要依赖于单物体数据集或预定义的抓取配置，难以应对真实场景中复杂的环境干扰和多样的物体交互，并且缺乏对预抓取姿势的建模，导致抓取成功率较低。

核心思路：论文的核心思路是构建一个包含大量多物体场景抓取数据的数据集，并设计一个端到端的网络DGS-Net，直接从单目点云预测抓取配置。通过显式建模抓取偏移和预抓取配置，DGS-Net能够学习到更鲁棒和准确的抓取策略。

技术框架：DGS-Net的整体框架包含以下几个主要部分：首先，使用点云处理模块提取场景的点云特征；然后，使用抓取预测模块预测候选抓取姿势，包括抓取位置、方向、抓取宽度和预抓取姿势；最后，使用抓取评估模块对候选抓取姿势进行评估，选择最优的抓取姿势。数据集的生成分为两个阶段：首先是单物体抓取合成，然后是场景级抓取生成。

关键创新：论文的关键创新在于以下几个方面：1) 提出了一个包含大量多物体场景抓取数据的数据集，该数据集显式地建模了抓取偏移和预抓取配置；2) 设计了一个端到端的抓取预测网络DGS-Net，该网络可以直接从单目点云预测抓取配置，无需人工干预；3) 提出了一种两阶段抓取数据生成策略，该策略能够有效地生成高质量的抓取数据。

关键设计：在网络结构方面，DGS-Net采用了PointNet++作为点云特征提取模块，并使用多层感知机（MLP）进行抓取预测和评估。在损失函数方面，论文使用了交叉熵损失函数来训练抓取分类器，并使用L1损失函数来回归抓取参数。在数据生成方面，论文使用了物理引擎来模拟抓取过程，并对抓取结果进行验证，以确保数据的质量。

🖼️ 关键图片

📊 实验亮点

DGS-Net在仿真环境中实现了88.63%的抓取成功率，在真实机器人平台上实现了78.98%的抓取成功率。与现有方法相比，DGS-Net表现出更低的穿透率，平均穿透深度为0.375毫米，穿透体积为559.45立方毫米，验证了其在复杂场景下的抓取性能和泛化能力。

🎯 应用场景

该研究成果可应用于各种机器人操作任务，例如：工业自动化中的物体分拣和装配、家庭服务机器人中的物品整理和清洁、以及医疗机器人中的手术辅助等。通过学习多物体场景下的灵巧抓取，机器人能够更好地适应复杂环境，完成更加精细的操作任务，从而提高生产效率和服务质量，具有广阔的应用前景。

📄 摘要（原文）

Dexterous grasping in multi-object scene constitutes a fundamental challenge in robotic manipulation. Current mainstream grasping datasets predominantly focus on single-object scenarios and predefined grasp configurations, often neglecting environmental interference and the modeling of dexterous pre-grasp gesture, thereby limiting their generalizability in real-world applications. To address this, we propose DGS-Net, an end-to-end grasp prediction network capable of learning dense grasp configurations from single-view point clouds in multi-object scene. Furthermore, we propose a two-stage grasp data generation strategy that progresses from dense single-object grasp synthesis to dense scene-level grasp generation. Our dataset comprises 307 objects, 240 multi-object scenes, and over 350k validated grasps. By explicitly modeling grasp offsets and pre-grasp configurations, the dataset provides more robust and accurate supervision for dexterous grasp learning. Experimental results show that DGS-Net achieves grasp success rates of 88.63\% in simulation and 78.98\% on a real robotic platform, while exhibiting lower penetration with a mean penetration depth of 0.375 mm and penetration volume of 559.45 mm^3, outperforming existing methods and demonstrating strong effectiveness and generalization capability. Our dataset is available at https://github.com/4taotao8/DGS-Net.

End-to-End Dexterous Grasp Learning from Single-View Point Clouds via a Multi-Object Scene Dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理