DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model

📄 arXiv: 2510.08556v1 📥 PDF

作者: Xueyi Liu, He Wang, Li Yi

分类: cs.RO, cs.CV

发布日期: 2025-10-09

备注: Project Website: https://meowuu7.github.io/DexNDM/ Video: https://youtu.be/tU2Mv8vWftU

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出DexNDM,通过关节级神经动力学模型弥合灵巧手内旋转的现实差距

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 灵巧操作 机器人 现实差距 神经动力学模型 Sim-to-Real 关节级模型 自主数据收集

📋 核心要点

  1. 灵巧手操作中,仿真与现实的“现实差距”导致策略难以泛化到真实世界复杂物体和场景。
  2. 提出关节级神经动力学模型(DexNDM),学习弥合现实差距,并自适应调整仿真策略。
  3. 实验表明,该方法能成功旋转复杂形状、高长宽比和小尺寸物体,并具有良好的鲁棒性。

📝 摘要(中文)

在机器人领域,实现广义的灵巧手内物体旋转仍然是一个重大挑战,这主要是由于策略从仿真到现实世界的迁移非常困难。灵巧操作中复杂且富含接触的动力学产生了“现实差距”,这限制了先前的工作只能处理简单的几何形状、有限的物体尺寸和长宽比、受约束的手腕姿势或定制的手。我们提出了一个新颖的框架来解决这个sim-to-real的挑战,该框架使单个在仿真中训练的策略能够推广到现实世界中的各种物体和条件。我们方法的核心是一个关节级动力学模型,它通过有效地拟合有限的真实世界数据,并相应地调整仿真策略的动作来弥合现实差距。该模型具有高度的数据效率和跨不同全手交互分布的泛化能力,这通过分解关节间的动力学,将系统范围的影响压缩到低维变量中,并从每个关节自身的动态曲线中学习其演变来实现,从而隐式地捕获这些净效应。我们将其与完全自主的数据收集策略相结合,该策略以最少的人工干预收集多样化的真实世界交互数据。我们完整的流程展示了前所未有的通用性:单个策略成功地旋转具有复杂形状(例如,动物)、高长宽比(高达5.33)和小尺寸的具有挑战性的物体,同时处理各种手腕方向和旋转轴。全面的真实世界评估和用于复杂任务的远程操作应用验证了我们方法的有效性和鲁棒性。

🔬 方法详解

问题定义:现有方法在灵巧手内物体旋转任务中,由于仿真与现实环境存在差异(即“现实差距”),导致在仿真环境中训练的策略难以直接应用于真实世界。具体表现为,现有方法通常只能处理简单几何形状、有限尺寸或特定姿态的物体,泛化能力受限。

核心思路:论文的核心思路是学习一个关节级的神经动力学模型,该模型能够学习并弥合仿真与现实之间的差距。通过学习真实世界的数据,模型能够理解真实环境中的动力学特性,并对仿真策略的动作进行调整,使其适应真实环境。这种方法的核心在于将系统级的动力学分解为关节级的动力学,从而提高模型的泛化能力和数据效率。

技术框架:整体框架包含三个主要部分:1) 在仿真环境中训练初始策略;2) 在真实世界中进行自主数据收集,收集少量真实数据;3) 利用收集到的真实数据训练关节级神经动力学模型,并使用该模型调整仿真策略的动作。该框架采用迭代的方式进行优化,不断收集新的数据并更新模型,从而逐步缩小仿真与现实之间的差距。

关键创新:最重要的创新点在于提出了关节级神经动力学模型。该模型通过将系统级的动力学分解为关节级的动力学,并学习每个关节的动态特性,从而提高了模型的泛化能力和数据效率。此外,该模型还能够将系统范围的影响压缩到低维变量中,从而更好地理解和建模复杂的动力学关系。

关键设计:关节级神经动力学模型的设计是关键。具体来说,模型针对每个关节学习一个动态模型,该模型以关节的当前状态和动作作为输入,预测关节的下一个状态。模型使用神经网络进行参数化,并使用真实世界的数据进行训练。损失函数的设计考虑了预测状态与真实状态之间的差异,以及动作的平滑性。此外,自主数据收集策略的设计也至关重要,它需要能够收集到多样化的、具有代表性的真实世界数据。

📊 实验亮点

实验结果表明,该方法能够成功旋转具有复杂形状(如动物)、高长宽比(高达5.33)和小尺寸的物体,并且能够处理各种手腕方向和旋转轴。与现有方法相比,该方法在泛化能力和鲁棒性方面都有显著提升。此外,该方法还展示了在远程操作应用中的有效性,验证了其在实际应用中的潜力。

🎯 应用场景

该研究成果可广泛应用于机器人灵巧操作领域,例如工业自动化、医疗手术机器人、家庭服务机器人等。通过提高机器人对复杂物体的操作能力,可以实现更高效、更灵活的自动化生产线,更精准的手术操作,以及更智能化的家庭服务。此外,该技术还可以应用于虚拟现实和增强现实领域,提高虚拟环境的交互体验。

📄 摘要(原文)

Achieving generalized in-hand object rotation remains a significant challenge in robotics, largely due to the difficulty of transferring policies from simulation to the real world. The complex, contact-rich dynamics of dexterous manipulation create a "reality gap" that has limited prior work to constrained scenarios involving simple geometries, limited object sizes and aspect ratios, constrained wrist poses, or customized hands. We address this sim-to-real challenge with a novel framework that enables a single policy, trained in simulation, to generalize to a wide variety of objects and conditions in the real world. The core of our method is a joint-wise dynamics model that learns to bridge the reality gap by effectively fitting limited amount of real-world collected data and then adapting the sim policy's actions accordingly. The model is highly data-efficient and generalizable across different whole-hand interaction distributions by factorizing dynamics across joints, compressing system-wide influences into low-dimensional variables, and learning each joint's evolution from its own dynamic profile, implicitly capturing these net effects. We pair this with a fully autonomous data collection strategy that gathers diverse, real-world interaction data with minimal human intervention. Our complete pipeline demonstrates unprecedented generality: a single policy successfully rotates challenging objects with complex shapes (e.g., animals), high aspect ratios (up to 5.33), and small sizes, all while handling diverse wrist orientations and rotation axes. Comprehensive real-world evaluations and a teleoperation application for complex tasks validate the effectiveness and robustness of our approach. Website: https://meowuu7.github.io/DexNDM/