Offline-to-online Reinforcement Learning for Image-based Grasping with Scarce Demonstrations
作者: Bryan Chan, Anson Leung, James Bergstra
分类: cs.RO, cs.AI, cs.LG
发布日期: 2024-10-19 (更新: 2025-01-22)
备注: In CoRL Workshop on Mastering Robot Manipulation in a World of Abundant Data 2024
💡 一句话要点
提出基于神经正切核正则化的离线-在线强化学习算法,解决图像抓取任务中少量样本学习问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 在线强化学习 机器人抓取 图像处理 神经正切核
📋 核心要点
- 现有基于图像的机器人抓取任务中,少量演示样本导致行为克隆效果不佳,随机探索成本高昂。
- 该论文提出一种新的离线-在线强化学习算法,利用神经正切核正则化Actor-Critic算法的目标网络,提升学习效率。
- 实验表明,该算法仅用50个演示样本,在两小时内成功率超过90%,优于行为克隆和常用强化学习算法。
📝 摘要(中文)
离线-在线强化学习 (O2O RL) 旨在智能体与环境交互时持续改进策略,同时确保初始策略行为令人满意。这种令人满意的行为对于机器人操作至关重要,因为随机探索可能因灾难性故障和时间而代价高昂。当只能获得少量的(可能不是最优的)演示时,O2O RL 特别有吸引力,在这种情况下,行为克隆 (BC) 已知会受到分布偏移的影响。先前的工作已经概述了在基于图像的环境中应用 O2O RL 算法的挑战。在这项工作中,我们提出了一种新颖的 O2O RL 算法,该算法可以在真实的基于图像的机器人真空抓取任务中,使用少量演示进行学习,而 BC 在大多数情况下都会失败。所提出的算法用受神经正切核启发的正则化技术替换了离策略 Actor-Critic 算法中的目标网络。我们证明,所提出的算法可以在不到两个小时的交互时间内达到 90% 以上的成功率,仅使用 50 个人工演示,而 BC 和现有的常用 RL 算法未能实现类似的性能。
🔬 方法详解
问题定义:论文旨在解决在少量人工演示样本下,如何使机器人快速学习并稳定执行基于图像的抓取任务。现有方法,如行为克隆,容易受到分布偏移的影响,导致性能下降。传统的强化学习方法需要大量的探索,在机器人操作中可能导致设备损坏或任务失败,成本高昂。
核心思路:论文的核心思路是利用离线-在线强化学习框架,结合少量人工演示数据,快速学习一个可用的初始策略,并通过在线交互不断优化该策略。为了解决离线数据带来的偏差问题,论文引入了神经正切核(Neural Tangent Kernel, NTK)正则化,约束策略更新,使其不会偏离初始策略太远。
技术框架:整体框架是一个标准的离线-在线强化学习流程。首先,利用少量人工演示数据训练一个初始策略。然后,使用Actor-Critic算法进行在线策略优化。关键在于,在更新Critic网络时,使用NTK正则化目标网络,防止过拟合离线数据,并鼓励探索。
关键创新:最重要的技术创新点在于使用NTK正则化来约束目标网络的更新。传统的Actor-Critic算法中,目标网络通常是Actor或Critic网络的滑动平均。该论文使用NTK来衡量当前策略与初始策略的相似度,并将其作为正则化项添加到损失函数中。这使得策略更新更加稳定,并能更好地利用离线数据。
关键设计:论文的关键设计包括:1) 使用深度卷积神经网络作为Actor和Critic网络的结构,以处理图像输入;2) 使用TD-error作为Critic网络的损失函数,并添加NTK正则化项;3) 使用DDPG(Deep Deterministic Policy Gradient)算法进行策略更新;4) 精心设计的奖励函数,鼓励机器人成功抓取目标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该算法仅使用50个人工演示,在不到两个小时的交互时间内,在真实的机器人真空抓取任务中达到了90%以上的成功率。相比之下,行为克隆和现有的常用强化学习算法未能达到类似的性能。这证明了该算法在少量样本学习和快速适应环境方面的优越性。
🎯 应用场景
该研究成果可应用于各种需要机器人进行复杂操作的场景,例如工业自动化、家庭服务机器人、医疗辅助机器人等。特别是在任务演示数据获取困难或成本高昂的情况下,该方法能够显著降低机器人学习的难度和时间成本,加速机器人的部署和应用。
📄 摘要(原文)
Offline-to-online reinforcement learning (O2O RL) aims to obtain a continually improving policy as it interacts with the environment, while ensuring the initial policy behaviour is satisficing. This satisficing behaviour is necessary for robotic manipulation where random exploration can be costly due to catastrophic failures and time. O2O RL is especially compelling when we can only obtain a scarce amount of (potentially suboptimal) demonstrations$\unicode{x2014}$a scenario where behavioural cloning (BC) is known to suffer from distribution shift. Previous works have outlined the challenges in applying O2O RL algorithms under the image-based environments. In this work, we propose a novel O2O RL algorithm that can learn in a real-life image-based robotic vacuum grasping task with a small number of demonstrations where BC fails majority of the time. The proposed algorithm replaces the target network in off-policy actor-critic algorithms with a regularization technique inspired by neural tangent kernel. We demonstrate that the proposed algorithm can reach above 90\% success rate in under two hours of interaction time, with only 50 human demonstrations, while BC and existing commonly-used RL algorithms fail to achieve similar performance.