DextrAH-RGB: Visuomotor Policies to Grasp Anything with Dexterous Hands

作者: Ritvik Singh, Arthur Allshire, Ankur Handa, Nathan Ratliff, Karl Van Wyk

分类: cs.RO

发布日期: 2024-11-27 (更新: 2025-02-01)

💡 一句话要点

DextrAH-RGB：基于RGB图像的灵巧手抓取任意物体视觉运动策略

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 灵巧抓取 RGB图像 强化学习 蒸馏学习 Sim2Real迁移 机器人操作 视觉运动策略

📋 核心要点

灵巧机器人抓取多样化物体是一项重要但极具挑战性的技能，现有方法在速度、通用性或对深度图和物体姿态的依赖方面存在局限性。
DextrAH-RGB的核心在于利用模拟环境中的特权策略（FGP），并通过蒸馏学习将其迁移到仅依赖RGB图像的策略，实现端到端的灵巧抓取。
该系统在真实环境中对未见过的物体展现出良好的泛化能力，其性能与依赖深度信息的抓取策略相当，证明了sim2real迁移的有效性。

📝 摘要（中文）

本文提出DextrAH-RGB，一个仅从RGB图像输入端到端执行灵巧手抓取的系统。该系统首先在模拟环境中，通过强化学习训练一个特权Fabric引导策略（FGP），该策略作用于几何Fabric控制器，以灵巧地抓取各种物体。然后，使用逼真的平铺渲染，完全在模拟环境中将这个特权FGP提炼成一个基于RGB的FGP。据我们所知，这是第一个能够展示基于RGB的端到端策略在复杂、动态、接触丰富的任务（如灵巧抓取）中实现鲁棒的sim2real迁移的工作。DextrAH-RGB在性能上与基于深度图的灵巧抓取策略具有竞争力，并且能够泛化到真实世界中具有未见过的几何形状、纹理和光照条件的新物体。

🔬 方法详解

问题定义：现有灵巧抓取方法通常依赖于深度信息或物体姿态估计，限制了其在真实场景中的应用。此外，直接在真实环境中训练灵巧抓取策略成本高昂且效率低下。因此，如何仅使用RGB图像，实现鲁棒的、可泛化的灵巧抓取，是一个亟待解决的问题。

核心思路：本文的核心思路是利用模拟环境中的特权策略（Fabric Guided Policy, FGP），该策略可以访问几何信息，从而学习高效的抓取策略。然后，通过蒸馏学习，将该特权策略迁移到一个仅依赖RGB图像的策略。这种方法避免了直接在真实环境中训练，并利用了模拟环境的优势。

技术框架：DextrAH-RGB系统包含两个主要阶段：1) 在模拟环境中训练特权FGP。该FGP使用几何Fabric控制器来控制灵巧手。2) 使用逼真的渲染，在模拟环境中将特权FGP蒸馏成一个基于RGB的FGP。整个流程是端到端的，从RGB图像输入到灵巧手控制输出。

关键创新：该论文的关键创新在于成功实现了基于RGB图像的端到端灵巧抓取策略的sim2real迁移。之前的研究通常依赖于深度信息或物体姿态估计，而DextrAH-RGB仅使用RGB图像作为输入，大大提高了其在真实场景中的适用性。此外，使用Fabric引导策略和蒸馏学习，有效地利用了模拟环境的优势。

关键设计：特权FGP使用强化学习进行训练，奖励函数的设计鼓励抓取成功和动作效率。蒸馏学习的目标是最小化RGB-based FGP和特权FGP之间的动作差异。模拟环境使用了逼真的平铺渲染，以提高sim2real迁移的鲁棒性。几何Fabric控制器用于将高层动作指令转换为具体的关节控制信号。

🖼️ 关键图片

📊 实验亮点

DextrAH-RGB在真实环境中成功抓取了各种未见过的物体，包括具有不同几何形状、纹理和光照条件的物体。实验结果表明，该系统在性能上与基于深度图的灵巧抓取策略具有竞争力，并且能够泛化到新的物体。这证明了基于RGB图像的端到端灵巧抓取策略的sim2real迁移是可行的。

🎯 应用场景

DextrAH-RGB技术可应用于工业自动化、家庭服务机器人、医疗手术等领域。该技术能够使机器人更灵活地抓取各种物体，完成复杂的任务，例如在拥挤的环境中拣选物品、辅助医生进行精细手术等。未来，该技术有望进一步发展，实现更智能、更自主的机器人操作。

📄 摘要（原文）

One of the most important, yet challenging, skills for a dexterous robot is grasping a diverse range of objects. Much of the prior work has been limited by speed, generality, or reliance on depth maps and object poses. In this paper, we introduce DextrAH-RGB, a system that can perform dexterous arm-hand grasping end-to-end from RGB image input. We train a privileged fabric-guided policy (FGP) in simulation through reinforcement learning that acts on a geometric fabric controller to dexterously grasp a wide variety of objects. We then distill this privileged FGP into a RGB-based FGP strictly in simulation using photorealistic tiled rendering. To our knowledge, this is the first work that is able to demonstrate robust sim2real transfer of an end2end RGB-based policy for complex, dynamic, contact-rich tasks such as dexterous grasping. DextrAH-RGB is competitive with depth-based dexterous grasping policies, and generalizes to novel objects with unseen geometry, texture, and lighting conditions in the real world. Videos of our system grasping a diverse range of unseen objects are available at \url{https://dextrah-rgb.github.io/}.

DextrAH-RGB: Visuomotor Policies to Grasp Anything with Dexterous Hands

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理