Dexterous Grasping with Real-World Robotic Reinforcement Learning
作者: Dongchi Huang, Tianle Zhang, Yihang Li, Ling Zhao, Jiayi Li, Zhirui Fang, Chunhe Xia, Xiaodong He
分类: cs.RO
发布日期: 2025-03-06 (更新: 2025-09-22)
💡 一句话要点
DexGraspRL:一种基于真实世界机器人强化学习的灵巧抓取方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 机器人灵巧抓取 强化学习 模仿学习 真实世界机器人 策略优化
📋 核心要点
- 现有灵巧抓取研究主要集中在模拟器中,存在真实世界与模拟环境的domain gap,限制了其在实际应用中的泛化性和实用性。
- DexGraspRL通过模仿学习预训练和真实世界强化学习微调相结合,直接在真实环境中训练机器人,提升灵巧抓取能力。
- 实验结果表明,DexGraspRL在灵巧抓取任务中取得了92%的平均成功率,并通过强化学习微调,周期时间比模仿学习策略减少了23%。
📝 摘要(中文)
本文提出DexGraspRL,一个直接在真实世界环境中训练机器人以获得灵巧抓取技能的强化学习框架。该框架包含两个阶段:(i)预训练阶段,使用有限的专家演示通过模仿学习(IL)预训练策略;(ii)微调阶段,通过在真实世界场景中直接进行强化学习来优化策略。为了缓解由演示和真实世界环境之间的分布偏移引起的灾难性遗忘现象,我们设计了一个正则化项,以平衡强化学习的探索与预训练策略的保留。真实世界任务的实验表明,DexGraspRL成功地完成了各种灵巧抓取任务,平均成功率接近92%。此外,通过强化学习进行微调,我们的方法发现了新的策略,与模仿学习策略相比,平均周期时间减少了23%。
🔬 方法详解
问题定义:论文旨在解决真实世界中机器人灵巧抓取的问题。现有方法主要依赖于在模拟环境中训练,由于模拟环境与真实环境存在差异,导致训练好的策略难以直接应用于真实机器人,泛化能力差。此外,直接在真实环境中进行强化学习训练样本效率低,探索空间大,训练难度高。
核心思路:论文的核心思路是结合模仿学习和强化学习的优势。首先,利用模仿学习从少量专家演示中学习一个初始策略,使其具备一定的抓取能力。然后,在真实环境中利用强化学习对该策略进行微调,使其能够适应真实环境的复杂性和不确定性,并探索更优的抓取策略。
技术框架:DexGraspRL框架包含两个主要阶段:预训练阶段和微调阶段。在预训练阶段,使用模仿学习,利用少量专家演示数据训练一个初始策略。在微调阶段,使用强化学习,在真实环境中与机器人进行交互,通过奖励信号不断优化策略。为了缓解灾难性遗忘,引入了一个正则化项,用于平衡强化学习的探索和预训练策略的保留。
关键创新:该方法最重要的创新点在于将模仿学习和强化学习相结合,并设计了一个正则化项来缓解灾难性遗忘。与传统的仅依赖模拟环境训练的方法相比,该方法可以直接在真实环境中训练机器人,提高了策略的泛化能力和实用性。与直接在真实环境中进行强化学习相比,该方法利用模仿学习提供了一个良好的初始策略,降低了探索难度,提高了训练效率。
关键设计:正则化项的设计是关键。该正则化项的目标是使强化学习训练得到的策略在探索新策略的同时,尽可能地保留预训练策略的知识。具体实现方式是,在强化学习的损失函数中加入一项,用于衡量当前策略与预训练策略之间的差异。差异越小,损失越小,从而鼓励策略保留预训练策略的知识。具体使用的损失函数和网络结构等技术细节在论文中未明确给出,属于未知信息。
🖼️ 关键图片
📊 实验亮点
DexGraspRL在真实世界灵巧抓取任务中取得了显著成果,平均成功率达到92%。通过强化学习微调,该方法发现了优于模仿学习策略的新策略,平均周期时间减少了23%。这些结果表明,DexGraspRL是一种有效的真实世界机器人灵巧抓取学习方法。
🎯 应用场景
该研究成果可应用于各种需要机器人进行灵巧抓取的场景,例如:工业自动化、物流分拣、家庭服务机器人等。通过提高机器人的抓取能力,可以实现更高效、更灵活的自动化生产和服务,降低人工成本,提高生产效率。未来,该技术有望应用于更复杂的任务,例如:医疗手术、灾难救援等。
📄 摘要(原文)
Dexterous grasping in the real world presents a fundamental and significant challenge for robot learning. The ability to employ affordance-aware poses to grasp objects with diverse geometries and properties in arbitrary scenarios is essential for general-purpose robots. However, existing research predominantly addresses dexterous grasping problems within simulators, which encounter difficulties when applied in real-world environments due to the domain gap between reality and simulation. This limitation hinders their generalizability and practicality in real-world applications. In this paper, we present DexGraspRL, a reinforcement learning (RL) framework that directly trains robots in real-world environments to acquire dexterous grasping skills. Specifically, DexGraspRL consists of two stages: (i) a pretraining stage that pretrains the policy using imitation learning (IL) with a limited set of expert demonstrations; (ii) a fine-tuning stage that refines the policy through direct RL in real-world scenarios. To mitigate the catastrophic forgetting phenomenon arising from the distribution shift between demonstrations and real-world environments, we design a regularization term that balances the exploitation of RL with the preservation of the pretrained policy. Our experiments with real-world tasks demonstrate that DexGraspRL successfully accomplishes diverse dexterous grasping tasks, achieving an average success rate of nearly 92%. Furthermore, by fine-tuning with RL, our method uncovers novel policies, surpassing the IL policy with a 23% reduction in average cycle time.