DextrAH-RGB: Visuomotor Policies to Grasp Anything with Dexterous Hands
作者: Ritvik Singh, Arthur Allshire, Ankur Handa, Nathan Ratliff, Karl Van Wyk
分类: cs.RO
发布日期: 2024-11-27 (更新: 2025-02-01)
💡 一句话要点
DextrAH-RGB:基于RGB图像的灵巧手抓取任意物体视觉运动策略
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 灵巧抓取 RGB图像 强化学习 蒸馏学习 Sim2Real迁移 机器人操作 视觉运动策略
📋 核心要点
- 灵巧机器人抓取多样化物体是一项重要但极具挑战性的技能,现有方法在速度、通用性或对深度图和物体姿态的依赖方面存在局限性。
- DextrAH-RGB的核心在于利用模拟环境中的特权策略(FGP),并通过蒸馏学习将其迁移到仅依赖RGB图像的策略,实现端到端的灵巧抓取。
- 该系统在真实环境中对未见过的物体展现出良好的泛化能力,其性能与依赖深度信息的抓取策略相当,证明了sim2real迁移的有效性。
📝 摘要(中文)
本文提出DextrAH-RGB,一个仅从RGB图像输入端到端执行灵巧手抓取的系统。该系统首先在模拟环境中,通过强化学习训练一个特权Fabric引导策略(FGP),该策略作用于几何Fabric控制器,以灵巧地抓取各种物体。然后,使用逼真的平铺渲染,完全在模拟环境中将这个特权FGP提炼成一个基于RGB的FGP。据我们所知,这是第一个能够展示基于RGB的端到端策略在复杂、动态、接触丰富的任务(如灵巧抓取)中实现鲁棒的sim2real迁移的工作。DextrAH-RGB在性能上与基于深度图的灵巧抓取策略具有竞争力,并且能够泛化到真实世界中具有未见过的几何形状、纹理和光照条件的新物体。
🔬 方法详解
问题定义:现有灵巧抓取方法通常依赖于深度信息或物体姿态估计,限制了其在真实场景中的应用。此外,直接在真实环境中训练灵巧抓取策略成本高昂且效率低下。因此,如何仅使用RGB图像,实现鲁棒的、可泛化的灵巧抓取,是一个亟待解决的问题。
核心思路:本文的核心思路是利用模拟环境中的特权策略(Fabric Guided Policy, FGP),该策略可以访问几何信息,从而学习高效的抓取策略。然后,通过蒸馏学习,将该特权策略迁移到一个仅依赖RGB图像的策略。这种方法避免了直接在真实环境中训练,并利用了模拟环境的优势。
技术框架:DextrAH-RGB系统包含两个主要阶段:1) 在模拟环境中训练特权FGP。该FGP使用几何Fabric控制器来控制灵巧手。2) 使用逼真的渲染,在模拟环境中将特权FGP蒸馏成一个基于RGB的FGP。整个流程是端到端的,从RGB图像输入到灵巧手控制输出。
关键创新:该论文的关键创新在于成功实现了基于RGB图像的端到端灵巧抓取策略的sim2real迁移。之前的研究通常依赖于深度信息或物体姿态估计,而DextrAH-RGB仅使用RGB图像作为输入,大大提高了其在真实场景中的适用性。此外,使用Fabric引导策略和蒸馏学习,有效地利用了模拟环境的优势。
关键设计:特权FGP使用强化学习进行训练,奖励函数的设计鼓励抓取成功和动作效率。蒸馏学习的目标是最小化RGB-based FGP和特权FGP之间的动作差异。模拟环境使用了逼真的平铺渲染,以提高sim2real迁移的鲁棒性。几何Fabric控制器用于将高层动作指令转换为具体的关节控制信号。
🖼️ 关键图片
📊 实验亮点
DextrAH-RGB在真实环境中成功抓取了各种未见过的物体,包括具有不同几何形状、纹理和光照条件的物体。实验结果表明,该系统在性能上与基于深度图的灵巧抓取策略具有竞争力,并且能够泛化到新的物体。这证明了基于RGB图像的端到端灵巧抓取策略的sim2real迁移是可行的。
🎯 应用场景
DextrAH-RGB技术可应用于工业自动化、家庭服务机器人、医疗手术等领域。该技术能够使机器人更灵活地抓取各种物体,完成复杂的任务,例如在拥挤的环境中拣选物品、辅助医生进行精细手术等。未来,该技术有望进一步发展,实现更智能、更自主的机器人操作。
📄 摘要(原文)
One of the most important, yet challenging, skills for a dexterous robot is grasping a diverse range of objects. Much of the prior work has been limited by speed, generality, or reliance on depth maps and object poses. In this paper, we introduce DextrAH-RGB, a system that can perform dexterous arm-hand grasping end-to-end from RGB image input. We train a privileged fabric-guided policy (FGP) in simulation through reinforcement learning that acts on a geometric fabric controller to dexterously grasp a wide variety of objects. We then distill this privileged FGP into a RGB-based FGP strictly in simulation using photorealistic tiled rendering. To our knowledge, this is the first work that is able to demonstrate robust sim2real transfer of an end2end RGB-based policy for complex, dynamic, contact-rich tasks such as dexterous grasping. DextrAH-RGB is competitive with depth-based dexterous grasping policies, and generalizes to novel objects with unseen geometry, texture, and lighting conditions in the real world. Videos of our system grasping a diverse range of unseen objects are available at \url{https://dextrah-rgb.github.io/}.