Learning Diverse Bimanual Dexterous Manipulation Skills from Human Demonstrations

作者: Bohan Zhou, Haoqi Yuan, Yuhui Fu, Zongqing Lu

分类: cs.RO, cs.LG

发布日期: 2024-10-03

💡 一句话要点

BiDexHD：从人类演示中学习多样化的双臂灵巧操作技能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 双臂灵巧操作 机器人学习 模仿学习 师生学习 策略蒸馏

📋 核心要点

双臂灵巧操作因其高维动作空间和任务复杂性，策略学习面临巨大挑战，现有基准测试任务多样性不足。
BiDexHD框架统一任务构建，采用师生策略学习，教师学习通用奖励函数下的状态策略，学生提炼为视觉策略。
在TACO数据集上，BiDexHD在训练任务和未见任务上分别达到74.59%和51.07%的任务完成率，展示了其有效性和泛化能力。

📝 摘要（中文）

双臂灵巧操作是机器人领域一个重要但未被充分探索的领域。其高维动作空间和内在的任务复杂性给策略学习带来了巨大的挑战，而现有基准测试中有限的任务多样性阻碍了通用技能的发展。现有方法主要依赖于强化学习，通常受到为狭窄的任务集量身定制的复杂奖励函数的限制。本文提出了一种新颖的方法，可以从大量的人类演示中有效地学习多样化的双臂灵巧技能。具体来说，我们引入了BiDexHD，一个统一了现有双臂数据集的任务构建的框架，并采用师生策略学习来解决所有任务。教师使用通用的两阶段奖励函数，学习跨任务的基于状态的策略，这些任务具有共享行为，而学生将学习到的多任务策略提炼成基于视觉的策略。借助BiDexHD，从自动构建的任务中可扩展地学习大量双臂灵巧技能成为可能，为通用双臂灵巧操作提供了有希望的进展。我们在TACO数据集上的实证评估，涵盖六个类别的141个任务，表明在训练任务上的任务完成率为74.59%，在未见任务上的任务完成率为51.07%，展示了BiDexHD的有效性和有竞争力的零样本泛化能力。

🔬 方法详解

问题定义：现有双臂灵巧操作方法依赖强化学习，需要针对特定任务设计复杂的奖励函数，泛化性差，且现有数据集任务种类有限，难以学习通用的双臂操作技能。因此，如何从有限的人类演示中学习多样化的、可泛化的双臂灵巧操作技能是一个关键问题。

核心思路：BiDexHD的核心思路是利用师生学习框架，从大量人类演示数据中学习双臂灵巧操作技能。教师网络通过通用的两阶段奖励函数学习基于状态的策略，从而避免了为每个任务单独设计奖励函数的复杂性。学生网络则将教师网络学习到的多任务策略提炼成基于视觉的策略，从而实现从状态空间到视觉空间的泛化。

技术框架：BiDexHD框架包含以下几个主要模块：1) 任务构建模块：统一现有双臂数据集的任务构建方式，自动生成大量任务。2) 教师网络：使用两阶段奖励函数学习基于状态的策略。第一阶段奖励模仿人类演示，第二阶段奖励引导完成任务。3) 学生网络：将教师网络学习到的策略提炼成基于视觉的策略。4) 策略蒸馏模块：利用行为克隆等方法，将教师网络的策略迁移到学生网络。

关键创新：BiDexHD的关键创新在于：1) 提出了一个统一的任务构建框架，可以从现有数据集中自动生成大量任务，从而解决了任务多样性不足的问题。2) 采用了师生学习框架，教师网络学习通用的基于状态的策略，学生网络学习基于视觉的策略，从而实现了从状态空间到视觉空间的泛化。3) 设计了一个通用的两阶段奖励函数，避免了为每个任务单独设计奖励函数的复杂性。

关键设计：两阶段奖励函数的设计是关键。第一阶段的奖励函数鼓励模仿人类演示，例如使用L1或L2损失来衡量机器人动作与人类动作之间的差异。第二阶段的奖励函数引导机器人完成任务，例如，如果任务是抓取物体，则奖励函数可以基于机器人手爪与物体之间的距离。学生网络通常采用卷积神经网络（CNN）来处理视觉输入，并使用循环神经网络（RNN）来处理时间序列数据。策略蒸馏可以使用行为克隆或Dagger等方法。

🖼️ 关键图片

📊 实验亮点

BiDexHD在TACO数据集上进行了评估，该数据集包含141个任务，涵盖六个类别。实验结果表明，BiDexHD在训练任务上的任务完成率为74.59%，在未见任务上的任务完成率为51.07%。这些结果表明，BiDexHD具有良好的泛化能力，可以有效地学习多样化的双臂灵巧操作技能。

🎯 应用场景

该研究成果可应用于各种需要双臂灵巧操作的机器人应用场景，如智能制造、医疗手术、家庭服务等。例如，在智能制造中，机器人可以利用该技术完成复杂的装配任务；在医疗手术中，医生可以通过远程控制机器人进行精细的手术操作；在家庭服务中，机器人可以帮助人们完成各种家务劳动。

📄 摘要（原文）

Bimanual dexterous manipulation is a critical yet underexplored area in robotics. Its high-dimensional action space and inherent task complexity present significant challenges for policy learning, and the limited task diversity in existing benchmarks hinders general-purpose skill development. Existing approaches largely depend on reinforcement learning, often constrained by intricately designed reward functions tailored to a narrow set of tasks. In this work, we present a novel approach for efficiently learning diverse bimanual dexterous skills from abundant human demonstrations. Specifically, we introduce BiDexHD, a framework that unifies task construction from existing bimanual datasets and employs teacher-student policy learning to address all tasks. The teacher learns state-based policies using a general two-stage reward function across tasks with shared behaviors, while the student distills the learned multi-task policies into a vision-based policy. With BiDexHD, scalable learning of numerous bimanual dexterous skills from auto-constructed tasks becomes feasible, offering promising advances toward universal bimanual dexterous manipulation. Our empirical evaluation on the TACO dataset, spanning 141 tasks across six categories, demonstrates a task fulfillment rate of 74.59% on trained tasks and 51.07% on unseen tasks, showcasing the effectiveness and competitive zero-shot generalization capabilities of BiDexHD. For videos and more information, visit our project page https://sites.google.com/view/bidexhd.

Learning Diverse Bimanual Dexterous Manipulation Skills from Human Demonstrations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理