DexRepNet++: Learning Dexterous Robotic Manipulation with Geometric and Spatial Hand-Object Representations
作者: Qingtao Liu, Zhengnan Sun, Yu Cui, Haoming Li, Gaofeng Li, Lin Shao, Jiming Chen, Qi Ye
分类: cs.RO
发布日期: 2026-02-25
备注: Accepted by IEEE Transactions on Robotics (T-RO), 2026
期刊: IEEE Transactions on Robotics, vol. 42, pp. 799-818, 2026
💡 一句话要点
DexRepNet++:提出基于几何与空间表征的灵巧操作学习方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 灵巧操作 机器人操作 手-物交互 深度强化学习 几何表征
📋 核心要点
- 现有基于深度强化学习的灵巧操作方法在高维动作空间中提升采样效率,但忽略了输入空间中手-物交互表征对策略泛化性的影响。
- 论文提出DexRep,一种新颖的手-物交互表征,旨在捕捉物体表面特征以及手与物体之间的空间关系,从而提升灵巧操作技能的学习效果。
- 实验表明,DexRep在抓取、手内重定向和双手传递任务中均表现出色,并在真实世界中验证了其有效性,缩小了模拟到真实的差距。
📝 摘要(中文)
本文提出了一种名为DexRep的全新手-物交互表征方法,旨在捕捉物体表面特征以及手与物体之间的空间关系,从而提升灵巧操作技能的学习效果。该方法应用于抓取、手内重定向和双手传递三个灵巧操作任务,并通过大量实验验证了其有效性。在仿真环境中,对于抓取任务,使用40个物体训练的策略在超过5000个未见过的不同类别物体上实现了87.9%的成功率,显著优于使用数千个物体训练的现有方法。对于手内重定向和传递任务,该策略也将现有手-物表征的成功率和其他指标提高了20%到40%。此外,抓取策略在多相机和单相机设置下部署到真实世界,展示了较小的模拟到真实世界的差距。
🔬 方法详解
问题定义:灵巧操作由于多指机器手的自由度高和复杂的接触关系而极具挑战性。现有方法侧重于提高高维动作空间中的采样效率,但忽略了输入空间中手-物交互表征对策略泛化能力的关键作用。因此,如何设计一种有效的手-物交互表征,以提升策略在复杂输入空间中的泛化能力,是本文要解决的核心问题。
核心思路:论文的核心思路是设计一种能够同时捕捉物体表面几何特征和手与物体之间空间关系的表征方法。通过显式地建模这些信息,可以使策略更好地理解手-物交互,从而提高策略的泛化能力和鲁棒性。DexRep的设计目标是提供一个更全面、更具表达力的手-物交互描述,以便于强化学习算法学习更有效的操作策略。
技术框架:整体框架包含三个主要部分:1) 使用点云数据表示物体表面几何特征;2) 使用相对位置和姿态信息表示手与物体之间的空间关系;3) 将几何特征和空间关系融合,形成最终的DexRep表征。然后,将DexRep表征输入到强化学习算法中,学习灵巧操作策略。具体来说,策略网络接收DexRep作为输入,输出机器手的动作。
关键创新:论文的关键创新在于提出了DexRep表征,它能够有效地捕捉物体表面几何特征和手与物体之间的空间关系。与现有方法相比,DexRep不仅考虑了物体的形状,还考虑了手与物体之间的相对位置和姿态,从而提供了更全面的手-物交互信息。这种表征方式使得策略能够更好地理解手-物交互,从而提高策略的泛化能力和鲁棒性。
关键设计:DexRep表征由两部分组成:几何特征和空间关系。几何特征使用点云数据表示,并通过PointNet提取特征向量。空间关系使用手与物体之间的相对位置和姿态信息表示,并通过MLP编码成特征向量。然后,将几何特征向量和空间关系特征向量拼接在一起,形成最终的DexRep表征。在强化学习算法中,使用Actor-Critic框架,Actor网络输出动作,Critic网络评估状态价值。损失函数包括Actor损失和Critic损失,并通过梯度下降算法优化策略网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DexRep在抓取任务中,使用40个物体训练的策略在超过5000个未见过的不同类别物体上实现了87.9%的成功率,显著优于现有方法。在手内重定向和传递任务中,该策略也将现有手-物表征的成功率和其他指标提高了20%到40%。此外,抓取策略在真实世界中的部署也验证了其有效性,展示了较小的模拟到真实世界的差距。
🎯 应用场景
该研究成果可应用于各种需要灵巧操作的机器人应用场景,例如:工业自动化中的精密装配、医疗手术机器人中的微创操作、家庭服务机器人中的物品整理等。通过提升机器人的灵巧操作能力,可以提高生产效率、降低人工成本,并扩展机器人的应用范围。未来,该研究可以进一步推广到更复杂的环境和任务中,例如:在拥挤环境中进行操作、在未知物体上进行操作等。
📄 摘要(原文)
Robotic dexterous manipulation is a challenging problem due to high degrees of freedom (DoFs) and complex contacts of multi-fingered robotic hands. Many existing deep reinforcement learning (DRL) based methods aim at improving sample efficiency in high-dimensional output action spaces. However, existing works often overlook the role of representations in achieving generalization of a manipulation policy in the complex input space during the hand-object interaction. In this paper, we propose DexRep, a novel hand-object interaction representation to capture object surface features and spatial relations between hands and objects for dexterous manipulation skill learning. Based on DexRep, policies are learned for three dexterous manipulation tasks, i.e. grasping, in-hand reorientation, bimanual handover, and extensive experiments are conducted to verify the effectiveness. In simulation, for grasping, the policy learned with 40 objects achieves a success rate of 87.9% on more than 5000 unseen objects of diverse categories, significantly surpassing existing work trained with thousands of objects; for the in-hand reorientation and handover tasks, the policies also boost the success rates and other metrics of existing hand-object representations by 20% to 40%. The grasp policies with DexRep are deployed to the real world under multi-camera and single-camera setups and demonstrate a small sim-to-real gap.