Learning Adaptive Dexterous Grasping from Single Demonstrations

📄 arXiv: 2503.20208v2 📥 PDF

作者: Liangzhi Shi, Yulin Liu, Lingqi Zeng, Bo Ai, Zhengdong Hong, Hao Su

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-03-26 (更新: 2025-08-09)


💡 一句话要点

AdaDexGrasp:基于单次演示学习自适应灵巧抓取

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧抓取 强化学习 视觉语言模型 单次演示学习 课程学习

📋 核心要点

  1. 现有机器人灵巧抓取方法样本效率低,难以从少量演示中学习。
  2. AdaDexGrasp框架通过轨迹跟踪奖励和课程学习,提升强化学习的样本效率和鲁棒性。
  3. 实验表明,该方法在仿真和真实环境中均表现出色,并能零样本迁移到新机械手上。

📝 摘要(中文)

本文提出AdaDexGrasp框架,旨在高效学习灵巧抓取技能并根据用户指令自适应应用。该框架通过单次人类演示学习抓取技能库,并使用视觉-语言模型(VLM)选择最合适的技能。为提高样本效率,设计了轨迹跟踪奖励,引导强化学习(RL)向接近人类演示的状态探索。为超越单次演示,采用课程学习,逐步增加物体姿态变化以增强鲁棒性。部署时,VLM根据用户指令检索合适的技能,将底层学习技能与高层意图连接。在仿真和真实世界中评估AdaDexGrasp,结果表明该方法显著提高了RL效率,并实现了类似人类的抓取策略。最后,将学习到的策略零样本迁移到真实世界的PSYONIC Ability Hand,在各种物体上实现了90%的成功率,显著优于基线。

🔬 方法详解

问题定义:现有机器人灵巧抓取方法通常需要大量的训练数据,难以从少量的人类演示中学习。此外,如何根据用户指令自适应地选择合适的抓取技能也是一个挑战。现有的强化学习方法样本效率较低,难以应对复杂的灵巧抓取任务。

核心思路:AdaDexGrasp的核心思路是从单次人类演示中学习抓取技能库,并利用视觉-语言模型(VLM)根据用户指令选择合适的技能。通过轨迹跟踪奖励引导强化学习,提高样本效率。利用课程学习,逐步增加物体姿态变化,增强策略的鲁棒性。

技术框架:AdaDexGrasp框架包含以下主要模块:1) 从单次人类演示中学习抓取技能;2) 使用轨迹跟踪奖励引导强化学习;3) 通过课程学习增强策略的鲁棒性;4) 使用视觉-语言模型(VLM)根据用户指令选择合适的技能。整体流程是,首先从单次演示中学习初始策略,然后使用轨迹跟踪奖励和课程学习进行强化学习,最后使用VLM进行技能选择和执行。

关键创新:AdaDexGrasp的关键创新在于:1) 提出了一种轨迹跟踪奖励,能够有效地引导强化学习向接近人类演示的状态探索,从而提高样本效率;2) 采用课程学习,逐步增加物体姿态变化,增强策略的鲁棒性;3) 使用视觉-语言模型(VLM)根据用户指令选择合适的技能,实现了高层意图与底层技能的连接。

关键设计:轨迹跟踪奖励的设计是关键,它鼓励智能体学习接近人类演示的轨迹,同时允许一定的探索空间。课程学习的具体实现包括逐步增加物体姿态变化的幅度。视觉-语言模型(VLM)的选择和训练也至关重要,需要选择能够有效理解用户指令并将其映射到合适的抓取技能的模型。具体的网络结构和参数设置在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AdaDexGrasp在仿真和真实世界中都取得了显著的成果。在真实世界的PSYONIC Ability Hand上进行了零样本迁移实验,在各种物体上实现了90%的抓取成功率,显著优于基线方法。这表明AdaDexGrasp具有良好的泛化能力和实用价值。具体的基线方法和提升幅度在论文中未详细说明,属于未知信息。

🎯 应用场景

AdaDexGrasp在工业自动化、家庭服务机器人、医疗康复等领域具有广泛的应用前景。它可以帮助机器人更高效地学习复杂的灵巧操作技能,并根据用户的意图自适应地完成任务。例如,在工业生产线上,机器人可以根据操作员的指令抓取不同形状和大小的零件,提高生产效率。在家庭环境中,机器人可以帮助老年人或残疾人完成日常任务,提高生活质量。

📄 摘要(原文)

How can robots learn dexterous grasping skills efficiently and apply them adaptively based on user instructions? This work tackles two key challenges: efficient skill acquisition from limited human demonstrations and context-driven skill selection. We introduce AdaDexGrasp, a framework that learns a library of grasping skills from a single human demonstration per skill and selects the most suitable one using a vision-language model (VLM). To improve sample efficiency, we propose a trajectory following reward that guides reinforcement learning (RL) toward states close to a human demonstration while allowing flexibility in exploration. To learn beyond the single demonstration, we employ curriculum learning, progressively increasing object pose variations to enhance robustness. At deployment, a VLM retrieves the appropriate skill based on user instructions, bridging low-level learned skills with high-level intent. We evaluate AdaDexGrasp in both simulation and real-world settings, showing that our approach significantly improves RL efficiency and enables learning human-like grasp strategies across varied object configurations. Finally, we demonstrate zero-shot transfer of our learned policies to a real-world PSYONIC Ability Hand, with a 90% success rate across objects, significantly outperforming the baseline.