Learning Diverse Bimanual Dexterous Manipulation Skills from Human Demonstrations
作者: Bohan Zhou, Haoqi Yuan, Yuhui Fu, Zongqing Lu
分类: cs.RO, cs.LG
发布日期: 2024-10-03
💡 一句话要点
BiDexHD:从人类演示中学习多样化的双臂灵巧操作技能
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 双臂灵巧操作 机器人学习 模仿学习 师生学习 策略蒸馏
📋 核心要点
- 双臂灵巧操作因其高维动作空间和任务复杂性,策略学习面临巨大挑战,现有基准测试任务多样性不足。
- BiDexHD框架统一任务构建,采用师生策略学习,教师学习通用奖励函数下的状态策略,学生提炼为视觉策略。
- 在TACO数据集上,BiDexHD在训练任务和未见任务上分别达到74.59%和51.07%的任务完成率,展示了其有效性和泛化能力。
📝 摘要(中文)
双臂灵巧操作是机器人领域一个重要但未被充分探索的领域。其高维动作空间和内在的任务复杂性给策略学习带来了巨大的挑战,而现有基准测试中有限的任务多样性阻碍了通用技能的发展。现有方法主要依赖于强化学习,通常受到为狭窄的任务集量身定制的复杂奖励函数的限制。本文提出了一种新颖的方法,可以从大量的人类演示中有效地学习多样化的双臂灵巧技能。具体来说,我们引入了BiDexHD,一个统一了现有双臂数据集的任务构建的框架,并采用师生策略学习来解决所有任务。教师使用通用的两阶段奖励函数,学习跨任务的基于状态的策略,这些任务具有共享行为,而学生将学习到的多任务策略提炼成基于视觉的策略。借助BiDexHD,从自动构建的任务中可扩展地学习大量双臂灵巧技能成为可能,为通用双臂灵巧操作提供了有希望的进展。我们在TACO数据集上的实证评估,涵盖六个类别的141个任务,表明在训练任务上的任务完成率为74.59%,在未见任务上的任务完成率为51.07%,展示了BiDexHD的有效性和有竞争力的零样本泛化能力。
🔬 方法详解
问题定义:现有双臂灵巧操作方法依赖强化学习,需要针对特定任务设计复杂的奖励函数,泛化性差,且现有数据集任务种类有限,难以学习通用的双臂操作技能。因此,如何从有限的人类演示中学习多样化的、可泛化的双臂灵巧操作技能是一个关键问题。
核心思路:BiDexHD的核心思路是利用师生学习框架,从大量人类演示数据中学习双臂灵巧操作技能。教师网络通过通用的两阶段奖励函数学习基于状态的策略,从而避免了为每个任务单独设计奖励函数的复杂性。学生网络则将教师网络学习到的多任务策略提炼成基于视觉的策略,从而实现从状态空间到视觉空间的泛化。
技术框架:BiDexHD框架包含以下几个主要模块:1) 任务构建模块:统一现有双臂数据集的任务构建方式,自动生成大量任务。2) 教师网络:使用两阶段奖励函数学习基于状态的策略。第一阶段奖励模仿人类演示,第二阶段奖励引导完成任务。3) 学生网络:将教师网络学习到的策略提炼成基于视觉的策略。4) 策略蒸馏模块:利用行为克隆等方法,将教师网络的策略迁移到学生网络。
关键创新:BiDexHD的关键创新在于:1) 提出了一个统一的任务构建框架,可以从现有数据集中自动生成大量任务,从而解决了任务多样性不足的问题。2) 采用了师生学习框架,教师网络学习通用的基于状态的策略,学生网络学习基于视觉的策略,从而实现了从状态空间到视觉空间的泛化。3) 设计了一个通用的两阶段奖励函数,避免了为每个任务单独设计奖励函数的复杂性。
关键设计:两阶段奖励函数的设计是关键。第一阶段的奖励函数鼓励模仿人类演示,例如使用L1或L2损失来衡量机器人动作与人类动作之间的差异。第二阶段的奖励函数引导机器人完成任务,例如,如果任务是抓取物体,则奖励函数可以基于机器人手爪与物体之间的距离。学生网络通常采用卷积神经网络(CNN)来处理视觉输入,并使用循环神经网络(RNN)来处理时间序列数据。策略蒸馏可以使用行为克隆或Dagger等方法。
🖼️ 关键图片
📊 实验亮点
BiDexHD在TACO数据集上进行了评估,该数据集包含141个任务,涵盖六个类别。实验结果表明,BiDexHD在训练任务上的任务完成率为74.59%,在未见任务上的任务完成率为51.07%。这些结果表明,BiDexHD具有良好的泛化能力,可以有效地学习多样化的双臂灵巧操作技能。
🎯 应用场景
该研究成果可应用于各种需要双臂灵巧操作的机器人应用场景,如智能制造、医疗手术、家庭服务等。例如,在智能制造中,机器人可以利用该技术完成复杂的装配任务;在医疗手术中,医生可以通过远程控制机器人进行精细的手术操作;在家庭服务中,机器人可以帮助人们完成各种家务劳动。
📄 摘要(原文)
Bimanual dexterous manipulation is a critical yet underexplored area in robotics. Its high-dimensional action space and inherent task complexity present significant challenges for policy learning, and the limited task diversity in existing benchmarks hinders general-purpose skill development. Existing approaches largely depend on reinforcement learning, often constrained by intricately designed reward functions tailored to a narrow set of tasks. In this work, we present a novel approach for efficiently learning diverse bimanual dexterous skills from abundant human demonstrations. Specifically, we introduce BiDexHD, a framework that unifies task construction from existing bimanual datasets and employs teacher-student policy learning to address all tasks. The teacher learns state-based policies using a general two-stage reward function across tasks with shared behaviors, while the student distills the learned multi-task policies into a vision-based policy. With BiDexHD, scalable learning of numerous bimanual dexterous skills from auto-constructed tasks becomes feasible, offering promising advances toward universal bimanual dexterous manipulation. Our empirical evaluation on the TACO dataset, spanning 141 tasks across six categories, demonstrates a task fulfillment rate of 74.59% on trained tasks and 51.07% on unseen tasks, showcasing the effectiveness and competitive zero-shot generalization capabilities of BiDexHD. For videos and more information, visit our project page https://sites.google.com/view/bidexhd.