FlowRetrieval: Flow-Guided Data Retrieval for Few-Shot Imitation Learning
作者: Li-Heng Lin, Yuchen Cui, Amber Xie, Tianyu Hua, Dorsa Sadigh
分类: cs.RO, cs.LG
发布日期: 2024-08-29 (更新: 2024-10-11)
💡 一句话要点
FlowRetrieval:利用光流引导的数据检索提升少样本模仿学习性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 少样本模仿学习 数据检索 光流 机器人学习 策略学习
📋 核心要点
- 现有检索方法或依赖精确行为和相似场景,或依赖高级语义描述,忽略了运动相似性在策略学习中的重要作用。
- FlowRetrieval利用光流表示提取相似运动,并指导策略学习,从而有效利用跨任务数据中的运动信息。
- 实验结果表明,FlowRetrieval在模拟和真实机器人任务中显著优于现有方法,成功率平均提升27%。
📝 摘要(中文)
少样本模仿学习依赖于少量特定任务的演示数据,以高效地调整策略来适应下游任务。基于检索的方法旨在检索相关的历史经验来扩充目标数据,从而辅助策略学习。然而,现有的数据检索方法要么依赖于先验数据中存在视觉场景相似的精确行为,这种假设不切实际;要么基于任务的高级语言描述的语义相似性进行检索,而这些描述可能无法提供关于跨任务共享的低级行为或运动的信息,而这些信息对于检索策略学习的相关数据通常更为重要。本文研究了如何利用大量跨任务数据中的运动相似性来改进目标任务的少样本模仿学习。核心思想是,运动相似的数据包含关于动作效果和对象交互的丰富信息,可以在少样本适应期间加以利用。我们提出了FlowRetrieval,一种利用光流表示从先验数据中提取与目标任务相似的运动,并指导策略学习的方法,从而最大限度地利用这些数据。结果表明,FlowRetrieval在模拟和真实世界领域显著优于现有方法,平均成功率比最佳的基于检索的现有方法高27%。在真实Franka Emika机器人上的Pen-in-Cup任务中,FlowRetrieval的性能是基于所有先验和目标数据进行学习的基线模仿学习技术的3.7倍。
🔬 方法详解
问题定义:少样本模仿学习旨在利用少量目标任务的演示数据,快速适应策略。现有基于检索的方法,要么要求先验数据存在视觉相似的精确行为,这通常不成立;要么依赖高级语义信息,忽略了运动相似性在策略学习中的重要性。因此,如何有效利用大量跨任务数据中的运动信息,是本文要解决的问题。
核心思路:论文的核心思路是利用光流表示来捕捉运动的相似性,并以此指导数据的检索和策略的学习。运动相似的数据蕴含着丰富的动作效果和对象交互信息,这些信息对于少样本模仿学习至关重要。通过检索运动相似的数据,可以有效地扩充目标任务的训练数据,从而提升策略的泛化能力。
技术框架:FlowRetrieval包含两个主要阶段:数据检索阶段和策略学习阶段。在数据检索阶段,首先计算目标任务演示的光流表示,然后在先验数据中检索具有相似光流表示的片段。在策略学习阶段,利用检索到的数据和目标任务的演示数据,训练一个模仿学习策略。该策略以状态作为输入,输出动作。
关键创新:FlowRetrieval的关键创新在于利用光流表示进行数据检索。光流能够有效地捕捉运动信息,从而使得检索到的数据更具有相关性。此外,FlowRetrieval还利用检索到的数据来指导策略的学习,从而使得策略能够更好地利用这些数据。与现有方法相比,FlowRetrieval能够更有效地利用跨任务数据中的运动信息,从而提升少样本模仿学习的性能。
关键设计:在数据检索阶段,使用预训练的光流估计网络来计算光流表示。相似性度量采用余弦相似度。在策略学习阶段,使用标准的模仿学习损失函数,例如均方误差损失函数。网络结构采用多层感知机或循环神经网络。
🖼️ 关键图片
📊 实验亮点
FlowRetrieval在模拟和真实机器人任务中都取得了显著的性能提升。在模拟环境中,FlowRetrieval的平均成功率比最佳的基于检索的现有方法高27%。在真实Franka Emika机器人上的Pen-in-Cup任务中,FlowRetrieval的性能是基于所有先验和目标数据进行学习的基线模仿学习技术的3.7倍。这些结果表明,FlowRetrieval能够有效地利用运动信息来提升少样本模仿学习的性能。
🎯 应用场景
FlowRetrieval具有广泛的应用前景,例如机器人操作、自动驾驶、游戏AI等领域。在机器人操作中,可以利用FlowRetrieval快速学习新的操作技能,例如抓取、放置、组装等。在自动驾驶中,可以利用FlowRetrieval学习新的驾驶行为,例如变道、超车、避障等。在游戏AI中,可以利用FlowRetrieval学习新的游戏策略,例如攻击、防御、合作等。该研究有助于降低机器人和AI系统的开发成本,提高其适应性和泛化能力。
📄 摘要(原文)
Few-shot imitation learning relies on only a small amount of task-specific demonstrations to efficiently adapt a policy for a given downstream tasks. Retrieval-based methods come with a promise of retrieving relevant past experiences to augment this target data when learning policies. However, existing data retrieval methods fall under two extremes: they either rely on the existence of exact behaviors with visually similar scenes in the prior data, which is impractical to assume; or they retrieve based on semantic similarity of high-level language descriptions of the task, which might not be that informative about the shared low-level behaviors or motions across tasks that is often a more important factor for retrieving relevant data for policy learning. In this work, we investigate how we can leverage motion similarity in the vast amount of cross-task data to improve few-shot imitation learning of the target task. Our key insight is that motion-similar data carries rich information about the effects of actions and object interactions that can be leveraged during few-shot adaptation. We propose FlowRetrieval, an approach that leverages optical flow representations for both extracting similar motions to target tasks from prior data, and for guiding learning of a policy that can maximally benefit from such data. Our results show FlowRetrieval significantly outperforms prior methods across simulated and real-world domains, achieving on average 27% higher success rate than the best retrieval-based prior method. In the Pen-in-Cup task with a real Franka Emika robot, FlowRetrieval achieves 3.7x the performance of the baseline imitation learning technique that learns from all prior and target data. Website: https://flow-retrieval.github.io