DexMachina: Functional Retargeting for Bimanual Dexterous Manipulation

📄 arXiv: 2505.24853v1 📥 PDF

作者: Zhao Mandi, Yifan Hou, Dieter Fox, Yashraj Narang, Ajay Mandlekar, Shuran Song

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-05-30


💡 一句话要点

DexMachina:用于灵巧双手动灵巧操作的功能重定向

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱八:物理动画 (Physics-based Animation)

关键词: 灵巧操作 功能重定向 课程学习 强化学习 双手动操作

📋 核心要点

  1. 现有方法难以应对灵巧双手动操作中大动作空间、时空不连续性和人机具身差距带来的挑战。
  2. DexMachina利用虚拟物体控制器,通过衰减控制器强度,引导策略逐步学习在运动和接触中接管任务。
  3. 实验表明,DexMachina在包含多种任务和灵巧手的模拟基准测试中,显著优于现有基线方法。

📝 摘要(中文)

本文研究了功能重定向问题:学习灵巧操作策略,以从人类手部-物体演示中跟踪物体状态。我们专注于具有铰接物体的长时程、双手动任务,由于巨大的动作空间、时空不连续性以及人类和机器人手之间的具身差距,这极具挑战性。我们提出了 DexMachina,一种新颖的基于课程的算法:其核心思想是使用具有衰减强度的虚拟物体控制器:首先自动驱动物体朝向其目标状态,以便策略可以在运动和接触引导下逐步学习接管。我们发布了一个包含各种任务和灵巧手的模拟基准,并表明 DexMachina 明显优于基线方法。我们的算法和基准实现了硬件设计的功能比较,并且我们展示了由定量和定性结果告知的关键发现。随着灵巧手开发的蓬勃发展,我们希望这项工作将为识别理想的硬件能力提供一个有用的平台,并降低为未来研究做出贡献的门槛。

🔬 方法详解

问题定义:论文旨在解决从人类手部-物体演示中学习灵巧操作策略,从而实现物体状态跟踪的功能重定向问题。现有方法在处理长时程、双手动、铰接物体操作任务时,面临动作空间巨大、时空不连续以及人手与机械手之间存在具身差距等挑战,导致策略学习困难。

核心思路:论文的核心思路是利用虚拟物体控制器,通过课程学习的方式,逐步引导策略学习。具体来说,首先使用虚拟控制器自动驱动物体朝向目标状态,然后逐渐降低控制器强度,让策略在运动和接触的引导下,逐步接管控制,最终实现完全由策略控制的灵巧操作。这种方法可以有效缓解动作空间探索的难度,并利用虚拟控制器的引导作用,克服时空不连续性和具身差距带来的问题。

技术框架:DexMachina的整体框架包含以下几个关键部分:1) 虚拟物体控制器:用于自动驱动物体朝向目标状态,提供运动和接触引导。2) 课程学习机制:通过逐渐降低虚拟控制器强度,实现策略的逐步接管。3) 强化学习算法:用于训练策略,使其能够学习在虚拟控制器的引导下完成灵巧操作任务。整体流程是,首先使用虚拟控制器驱动物体,然后通过强化学习训练策略,使其能够模仿虚拟控制器的行为,并最终完全接管控制。

关键创新:该论文的关键创新在于提出了基于衰减强度虚拟物体控制器的课程学习方法。与传统的强化学习方法相比,该方法能够有效缓解动作空间探索的难度,并利用虚拟控制器的引导作用,克服时空不连续性和具身差距带来的问题。此外,该论文还构建了一个包含多种任务和灵巧手的模拟基准,为灵巧操作算法的研究提供了有力的支持。

关键设计:虚拟物体控制器的设计至关重要,需要能够有效地驱动物体朝向目标状态,并提供合理的运动和接触引导。课程学习机制的设计也需要仔细考虑,需要选择合适的衰减策略,以保证策略能够平稳地接管控制。此外,强化学习算法的选择和参数设置也会影响最终的性能。论文中可能使用了特定的损失函数来鼓励策略模仿虚拟控制器的行为,并可能使用了特定的网络结构来提高策略的学习能力(具体细节未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DexMachina在模拟基准测试中显著优于基线方法。具体性能数据未知,但论文强调DexMachina在各种任务和灵巧手上的表现均优于现有方法。该算法和基准测试为硬件设计的功能比较提供了可能,并为未来的研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于机器人自动化、智能制造、医疗康复等领域。例如,可以利用该技术训练机器人完成复杂的装配任务、手术辅助任务等。通过功能重定向,可以将人类的灵巧操作经验迁移到机器人身上,从而提高机器人的智能化水平和工作效率。此外,该研究提供的模拟基准可以促进灵巧手硬件设计和算法研究的发展。

📄 摘要(原文)

We study the problem of functional retargeting: learning dexterous manipulation policies to track object states from human hand-object demonstrations. We focus on long-horizon, bimanual tasks with articulated objects, which is challenging due to large action space, spatiotemporal discontinuities, and embodiment gap between human and robot hands. We propose DexMachina, a novel curriculum-based algorithm: the key idea is to use virtual object controllers with decaying strength: an object is first driven automatically towards its target states, such that the policy can gradually learn to take over under motion and contact guidance. We release a simulation benchmark with a diverse set of tasks and dexterous hands, and show that DexMachina significantly outperforms baseline methods. Our algorithm and benchmark enable a functional comparison for hardware designs, and we present key findings informed by quantitative and qualitative results. With the recent surge in dexterous hand development, we hope this work will provide a useful platform for identifying desirable hardware capabilities and lower the barrier for contributing to future research. Videos and more at https://project-dexmachina.github.io/