Offline Imitation Learning Through Graph Search and Retrieval
作者: Zhao-Heng Yin, Pieter Abbeel
分类: cs.RO, cs.AI, cs.LG
发布日期: 2024-07-22
备注: Robotics: Science and Systems (RSS) 2024
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出GSR算法,通过图搜索与检索解决模仿学习中的次优演示问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模仿学习 图搜索 行为检索 机器人操作 次优演示
📋 核心要点
- 现有模仿学习方法难以处理次优演示和非结构化交互,离线强化学习方法又存在不稳定性。
- GSR算法通过图搜索评估行为价值,并利用检索方法在每个状态下识别最佳行为,再用行为克隆学习。
- 实验表明,GSR在模拟和真实机器人操作任务中,成功率和熟练度均显著优于基线方法。
📝 摘要(中文)
模仿学习是机器人获取操作技能的强大机器学习算法。然而,许多现实操作任务涉及精确和灵巧的机器人-物体交互,这使得人类难以收集高质量的专家演示。因此,机器人必须从次优演示和非结构化交互中学习技能,这仍然是一个关键挑战。现有工作通常使用离线深度强化学习(RL)来解决这一挑战,但实际上这些算法由于致命三元组问题而不稳定且脆弱。为了克服这个问题,我们提出GSR,一种简单而有效的算法,通过图搜索和检索从次优演示中学习。我们首先使用预训练的表示将交互经验组织成一个图,并执行图搜索来计算不同行为的价值。然后,我们应用基于检索的程序来识别每个状态下的最佳行为(动作),并使用行为克隆来学习该行为。我们在模拟和真实世界的机器人操作任务中评估了我们的方法,这些任务具有复杂的视觉输入,涵盖了各种精确和灵巧的操作技能,涉及具有不同物理属性的物体。与基线相比,GSR可以实现10%到30%的更高成功率和超过30%的更高熟练度。我们的项目页面位于https://zhaohengyin.github.io/gsr。
🔬 方法详解
问题定义:论文旨在解决模仿学习中,机器人从次优演示数据中学习复杂操作技能的问题。现有方法,特别是离线深度强化学习,在处理此类问题时,常常面临不稳定性,容易受到“致命三元组”(函数近似、引导策略、离线数据)的影响,导致学习效果不佳。
核心思路:GSR的核心思路是利用图结构来表示机器人与环境的交互经验,并通过图搜索来评估不同行为的价值。然后,通过检索与当前状态最相似的经验,并从中选择最佳行为进行学习。这种方法避免了直接使用强化学习,从而降低了不稳定性。
技术框架:GSR算法主要包含以下几个阶段:1) 经验图构建:使用预训练的视觉表示模型,将机器人与环境的交互经验编码为图结构,节点表示状态,边表示状态转移和动作。2) 图搜索:在构建的图上进行搜索,评估不同行为的长期价值。搜索算法可以是任何合适的图搜索算法,例如A搜索。3) 行为检索:对于给定的状态,从图中检索与该状态最相似的节点,并提取这些节点对应的最佳行为。4) 行为克隆*:使用行为克隆算法,从检索到的最佳行为中学习策略。
关键创新:GSR的关键创新在于将图搜索和检索相结合,用于从次优演示中学习。与传统的离线强化学习方法相比,GSR避免了直接进行策略优化,而是通过图搜索和检索来选择最佳行为,从而降低了学习的不稳定性。此外,GSR利用预训练的视觉表示模型,可以有效地处理复杂的视觉输入。
关键设计:GSR的关键设计包括:1) 预训练视觉表示模型:用于将原始视觉输入编码为低维状态表示,该模型可以是任何预训练的图像特征提取器,例如ResNet或Vision Transformer。2) 图搜索算法:用于评估不同行为的价值,可以选择A搜索、Dijkstra算法等。3) 相似度度量:用于在图中检索与当前状态最相似的节点,可以使用余弦相似度、欧氏距离等。4) 行为克隆损失函数*:用于学习策略,可以使用交叉熵损失或均方误差损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GSR算法在模拟和真实机器人操作任务中均取得了显著的性能提升。在多个复杂操作任务中,GSR的成功率比基线方法提高了10%到30%,熟练度提高了超过30%。这些结果表明,GSR算法能够有效地从次优演示中学习,并具备良好的泛化能力。
🎯 应用场景
GSR算法具有广泛的应用前景,可应用于各种需要机器人从次优演示中学习操作技能的场景,例如:工业自动化中的装配、分拣任务,家庭服务机器人中的物品整理、清洁任务,以及医疗机器人中的手术辅助等。该算法能够降低对高质量演示数据的依赖,提高机器人的自主学习能力,从而降低部署成本,并扩展机器人的应用范围。
📄 摘要(原文)
Imitation learning is a powerful machine learning algorithm for a robot to acquire manipulation skills. Nevertheless, many real-world manipulation tasks involve precise and dexterous robot-object interactions, which make it difficult for humans to collect high-quality expert demonstrations. As a result, a robot has to learn skills from suboptimal demonstrations and unstructured interactions, which remains a key challenge. Existing works typically use offline deep reinforcement learning (RL) to solve this challenge, but in practice these algorithms are unstable and fragile due to the deadly triad issue. To overcome this problem, we propose GSR, a simple yet effective algorithm that learns from suboptimal demonstrations through Graph Search and Retrieval. We first use pretrained representation to organize the interaction experience into a graph and perform a graph search to calculate the values of different behaviors. Then, we apply a retrieval-based procedure to identify the best behavior (actions) on each state and use behavior cloning to learn that behavior. We evaluate our method in both simulation and real-world robotic manipulation tasks with complex visual inputs, covering various precise and dexterous manipulation skills with objects of different physical properties. GSR can achieve a 10% to 30% higher success rate and over 30% higher proficiency compared to baselines. Our project page is at https://zhaohengyin.github.io/gsr.