Learning Dexterous In-Hand Manipulation with Multifingered Hands via Visuomotor Diffusion

📄 arXiv: 2503.02587v1 📥 PDF

作者: Piotr Koczy, Michael C. Welle, Danica Kragic

分类: cs.RO

发布日期: 2025-03-04


💡 一句话要点

提出基于视觉运动扩散策略的多指灵巧手学习框架,实现复杂手内操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 灵巧手操作 视觉运动扩散 增强现实遥操作 异常值检测 HDBSCAN GLOSH 机器人学习 手内操作

📋 核心要点

  1. 现有方法在多指灵巧手控制方面面临挑战,尤其是在复杂手内操作任务中,高质量数据获取和策略学习是关键瓶颈。
  2. 该论文提出了一种基于视觉运动扩散策略的学习框架,利用AR遥操作收集高质量数据,并通过异常值去除方法提升策略学习效果。
  3. 实验结果表明,该方法在真实环境中能够成功完成复杂的手内操作任务,例如单手拧开瓶盖,验证了其有效性。

📝 摘要(中文)

本文提出了一个基于视觉运动扩散策略的学习框架,用于多指灵巧手的灵巧手内操作。该系统通过快速响应的遥操作设置,实现了复杂的手内操作任务,例如单手拧开瓶盖,该遥操作设置使用了四指Allegro Hand。我们使用增强现实(AR)界面收集高质量的专家演示数据,该界面跟踪手部运动,并应用逆运动学和运动重定向以实现精确控制。AR头显提供实时可视化,而手势控制简化了遥操作。为了增强策略学习,我们引入了一种新颖的基于HDBSCAN聚类和分层全局-局部异常值分数(GLOSH)算法的演示异常值去除方法,有效地过滤掉可能降低性能的低质量演示。我们在真实环境中广泛评估了我们的方法,并在项目网站上提供了所有实验视频。

🔬 方法详解

问题定义:论文旨在解决多指灵巧手在复杂手内操作任务中的控制问题。现有的方法通常依赖于大量的、高质量的训练数据,而获取这些数据往往成本高昂且耗时。此外,噪声数据或低质量的演示数据会严重影响策略学习的效果,导致性能下降。

核心思路:论文的核心思路是利用增强现实(AR)技术简化高质量演示数据的收集过程,并结合异常值检测方法过滤掉低质量的演示数据,从而提升视觉运动扩散策略的学习效果。通过这种方式,可以在相对较少的数据量下,训练出能够完成复杂手内操作任务的策略。

技术框架:整体框架包含三个主要阶段:1) 数据收集阶段:使用AR界面进行遥操作,收集专家演示数据。AR头显提供实时可视化和手势控制,简化了操作过程。2) 数据预处理阶段:利用HDBSCAN聚类和GLOSH算法检测并移除演示数据中的异常值,提高数据质量。3) 策略学习阶段:使用视觉运动扩散策略,基于预处理后的数据进行训练,学习控制策略。

关键创新:论文的关键创新在于结合AR遥操作和异常值检测方法,提升了多指灵巧手策略学习的效率和效果。具体来说,AR遥操作降低了数据收集的难度,而基于HDBSCAN和GLOSH的异常值检测方法能够有效地过滤掉低质量的演示数据,从而提高策略学习的鲁棒性和泛化能力。

关键设计:在数据收集方面,使用了Allegro Hand作为操作手,并设计了基于AR的遥操作界面,允许操作者通过自然的手部运动进行控制。在异常值检测方面,采用了HDBSCAN聚类算法对数据进行分组,然后使用GLOSH算法计算每个数据点的异常值分数,并根据分数阈值过滤掉异常值。在策略学习方面,使用了视觉运动扩散模型,该模型能够学习从视觉输入到动作输出的映射关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文提出的方法在真实环境中成功实现了单手拧开瓶盖等复杂手内操作任务。通过引入基于HDBSCAN和GLOSH的异常值去除方法,策略学习的性能得到了显著提升(具体提升幅度未知,论文未提供明确的量化数据)。实验结果表明,该方法能够有效地利用高质量的演示数据,学习到鲁棒且泛化能力强的控制策略。

🎯 应用场景

该研究成果可应用于自动化装配、医疗手术机器人、家庭服务机器人等领域。通过学习复杂的手内操作技能,机器人可以更好地完成精细操作任务,提高生产效率和服务质量。未来,该技术有望进一步推广到更广泛的机器人应用场景中,例如灾难救援、太空探索等。

📄 摘要(原文)

We present a framework for learning dexterous in-hand manipulation with multifingered hands using visuomotor diffusion policies. Our system enables complex in-hand manipulation tasks, such as unscrewing a bottle lid with one hand, by leveraging a fast and responsive teleoperation setup for the four-fingered Allegro Hand. We collect high-quality expert demonstrations using an augmented reality (AR) interface that tracks hand movements and applies inverse kinematics and motion retargeting for precise control. The AR headset provides real-time visualization, while gesture controls streamline teleoperation. To enhance policy learning, we introduce a novel demonstration outlier removal approach based on HDBSCAN clustering and the Global-Local Outlier Score from Hierarchies (GLOSH) algorithm, effectively filtering out low-quality demonstrations that could degrade performance. We evaluate our approach extensively in real-world settings and provide all experimental videos on the project website: https://dex-manip.github.io/