D3Grasp: Diverse and Deformable Dexterous Grasping for General Objects

📄 arXiv: 2509.19892v1 📥 PDF

作者: Keyu Wang, Bingcong Lu, Zhengxue Cheng, Hengdi Zhang, Li Song

分类: cs.RO

发布日期: 2025-09-24


💡 一句话要点

D3Grasp:面向通用物体的多样化和可变形灵巧抓取

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧抓取 强化学习 多模态感知 可变形物体 机器人操作

📋 核心要点

  1. 现有灵巧抓取方法在高维动作空间和感知不确定性下,难以实现通用和可变形物体的多样化稳定抓取。
  2. D3Grasp通过多模态感知融合、非对称强化学习和接触感知的训练策略,提升了抓取的多样性、稳定性和对可变形物体的适应性。
  3. 实验结果表明,D3Grasp在真实世界中对刚性和可变形物体的抓取成功率达到95.1%,显著优于现有方法。

📝 摘要(中文)

本文提出D3Grasp,一个多模态感知引导的强化学习框架,旨在实现多样化和可变形物体的灵巧抓取。该框架首先引入统一的多模态表示,整合视觉和触觉感知,以稳健地抓取具有不同属性的常见物体。其次,提出一种非对称强化学习架构,在训练期间利用特权信息,同时保持部署的真实性,从而提高泛化能力和样本效率。第三,精心设计了一种训练策略,以合成富含接触、无穿透且运动学上可行的抓取,并增强对可变形和接触敏感物体的适应性。大量评估表明,D3Grasp在大型和多样化的物体类别中提供了高度稳健的性能,并在可变形和顺应物体的灵巧抓取方面显著提升了现有技术水平,即使在感知不确定性和真实世界的干扰下也是如此。D3Grasp在真实世界试验中实现了95.1%的平均成功率,优于先前在刚性和可变形物体基准上的方法。

🔬 方法详解

问题定义:论文旨在解决通用物体,特别是可变形物体,进行多样化和稳定的灵巧抓取问题。现有方法在高维动作空间中难以探索有效的抓取策略,并且对感知噪声和物体形变的鲁棒性较差。此外,合成高质量的训练数据,特别是对于接触敏感和可变形物体,也是一个挑战。

核心思路:论文的核心思路是利用多模态感知信息(视觉和触觉)来增强对物体的理解,并采用非对称强化学习框架,在训练时利用特权信息,在部署时保持真实性,从而提高泛化能力和样本效率。同时,设计专门的训练策略来生成高质量的抓取样本,以适应可变形物体。

技术框架:D3Grasp框架包含以下主要模块:1) 多模态感知模块,融合视觉和触觉信息,提供更全面的物体状态表示;2) 非对称强化学习模块,使用Actor-Critic结构,其中Critic在训练时可以访问特权信息(例如,物体完整模型),而Actor只能访问真实可用的信息;3) 抓取策略优化模块,通过强化学习算法(例如,PPO)学习抓取策略;4) 训练数据生成模块,生成包含接触信息、无穿透和运动学可行的抓取样本。

关键创新:论文的关键创新点在于:1) 统一的多模态表示,有效融合视觉和触觉信息;2) 非对称强化学习架构,利用特权信息提高训练效率和泛化能力;3) 针对可变形物体设计的训练策略,生成高质量的抓取样本。

关键设计:在多模态感知模块中,视觉信息通过卷积神经网络提取特征,触觉信息通过触觉传感器获取。非对称强化学习模块中,Critic网络可以访问物体的完整模型,用于更准确地评估抓取状态,而Actor网络只能访问视觉和触觉信息,以保证部署的真实性。训练数据生成模块使用物理引擎模拟抓取过程,并设计奖励函数来鼓励接触、避免穿透和保证运动学可行性。具体参数设置和网络结构细节在论文中有详细描述(未知)。

📊 实验亮点

D3Grasp在真实世界试验中取得了显著成果,平均抓取成功率达到95.1%,显著优于现有方法。尤其在可变形物体抓取方面,D3Grasp表现出更强的鲁棒性和适应性。具体对比的基线方法和提升幅度在论文中有详细数据(未知)。

🎯 应用场景

D3Grasp技术可应用于各种需要灵巧操作的机器人任务,例如:家庭服务机器人抓取不同形状和材质的物品、工业机器人处理柔性或易损零件、医疗机器人进行精细手术操作等。该研究有望提升机器人在复杂环境中的适应性和操作能力,实现更智能、更高效的自动化。

📄 摘要(原文)

Achieving diverse and stable dexterous grasping for general and deformable objects remains a fundamental challenge in robotics, due to high-dimensional action spaces and uncertainty in perception. In this paper, we present D3Grasp, a multimodal perception-guided reinforcement learning framework designed to enable Diverse and Deformable Dexterous Grasping. We firstly introduce a unified multimodal representation that integrates visual and tactile perception to robustly grasp common objects with diverse properties. Second, we propose an asymmetric reinforcement learning architecture that exploits privileged information during training while preserving deployment realism, enhancing both generalization and sample efficiency. Third, we meticulously design a training strategy to synthesize contact-rich, penetration-free, and kinematically feasible grasps with enhanced adaptability to deformable and contact-sensitive objects. Extensive evaluations confirm that D3Grasp delivers highly robust performance across large-scale and diverse object categories, and substantially advances the state of the art in dexterous grasping for deformable and compliant objects, even under perceptual uncertainty and real-world disturbances. D3Grasp achieves an average success rate of 95.1% in real-world trials,outperforming prior methods on both rigid and deformable objects benchmarks.