PROGRESSOR: A Perceptually Guided Reward Estimator with Self-Supervised Online Refinement

📄 arXiv: 2411.17764v1 📥 PDF

作者: Tewodros Ayalew, Xiao Zhang, Kevin Yuanbo Wu, Tianchong Jiang, Michael Maire, Matthew R. Walter

分类: cs.RO, cs.AI

发布日期: 2024-11-26

备注: 15 pages,13 figures


💡 一句话要点

PROGRESSOR:一种基于感知引导和自监督在线优化的奖励估计器

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 机器人学习 强化学习 自监督学习 奖励函数学习 任务进度估计 对抗学习 分布偏移

📋 核心要点

  1. 现有机器人学习方法依赖于人工设计的奖励函数或专家演示,难以泛化且成本高昂。
  2. PROGRESSOR通过自监督学习任务进度估计器,并结合对抗性推回机制,实现无监督的奖励函数学习。
  3. 实验表明,PROGRESSOR在真实机器人离线RL中表现优异,无需领域内微调,泛化能力强。

📝 摘要(中文)

我们提出了PROGRESSOR,一个新颖的框架,它从视频中学习任务无关的奖励函数,从而可以通过目标条件强化学习(RL)进行策略训练,而无需手动监督。该奖励的基础是对任务进度的分布的估计,该分布是当前、初始和目标观察的函数,并以自监督的方式学习。至关重要的是,PROGRESSOR通过在在线RL训练期间对抗性地推回对分布外观察的预测来改进奖励,以减轻非专家观察中固有的分布偏移。利用这种进度预测作为密集奖励以及对抗性推回,我们表明PROGRESSOR使机器人能够在没有任何外部监督的情况下学习复杂的行为。PROGRESSOR在来自EPIC-KITCHENS的大规模以自我为中心的人类视频上进行预训练,无需在领域内特定任务数据上进行微调,即可推广到噪声演示下的真实机器人离线RL,优于为机器人学习提供密集视觉奖励的当代方法。我们的发现突出了PROGRESSOR在可扩展的机器人应用中的潜力,在这些应用中,直接动作标签和特定于任务的奖励不易获得。

🔬 方法详解

问题定义:现有机器人学习方法通常需要人工设计的奖励函数或依赖于专家演示,这限制了它们的可扩展性和泛化能力。人工设计奖励函数耗时且容易出错,而专家演示的获取成本很高,尤其是在复杂任务中。此外,从非专家数据中学习奖励函数容易受到分布偏移的影响,导致性能下降。

核心思路:PROGRESSOR的核心思路是从视频数据中学习一个任务无关的奖励函数,该函数能够估计任务的进度。通过将任务进度估计作为密集奖励,并结合对抗性推回机制,可以有效地训练机器人策略,而无需人工监督或专家演示。这种方法旨在解决奖励函数设计和分布偏移问题,提高机器人学习的效率和泛化能力。

技术框架:PROGRESSOR框架包含两个主要模块:任务进度估计器和对抗性推回机制。任务进度估计器使用三元组(初始状态、当前状态、目标状态)作为输入,预测任务的进度。该估计器通过自监督学习进行训练,利用视频数据中的时间一致性信息。对抗性推回机制在在线RL训练期间,通过惩罚分布外的观察,来缓解分布偏移问题。整体流程是:首先,使用大规模视频数据预训练任务进度估计器;然后,在在线RL训练中使用该估计器作为奖励函数,并结合对抗性推回机制进行策略优化。

关键创新:PROGRESSOR的关键创新在于:1) 提出了一种自监督的任务进度估计方法,无需人工标注即可学习奖励函数;2) 引入了对抗性推回机制,有效缓解了在线RL训练中的分布偏移问题;3) 实现了任务无关的奖励函数学习,提高了模型的泛化能力。与现有方法相比,PROGRESSOR无需人工设计奖励函数或依赖专家演示,降低了学习成本,并提高了学习效率。

关键设计:任务进度估计器通常采用深度神经网络结构,例如3D卷积神经网络或Transformer网络,以提取视频帧中的时空特征。损失函数通常包括对比损失或三元组损失,以鼓励模型学习区分不同任务进度状态的能力。对抗性推回机制通过添加一个判别器网络来区分真实数据和生成数据,并使用对抗损失来惩罚分布外的观察。具体的参数设置和网络结构需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PROGRESSOR在真实机器人离线RL实验中取得了显著的成果。在EPIC-KITCHENS数据集上预训练后,PROGRESSOR无需领域内微调,即可在真实机器人环境中学习复杂的任务,例如打开抽屉、放置物体等。实验结果表明,PROGRESSOR优于现有的基于视觉奖励的机器人学习方法,例如Visual Foresight和RLBench,在任务成功率和学习效率方面均有显著提升。

🎯 应用场景

PROGRESSOR具有广泛的应用前景,例如:家庭服务机器人、工业自动化、自动驾驶等领域。它可以帮助机器人自主学习复杂的任务,而无需人工干预,从而降低开发成本,提高生产效率。此外,PROGRESSOR还可以应用于虚拟环境中的机器人训练,通过模拟真实世界的场景,提高机器人的泛化能力。

📄 摘要(原文)

We present PROGRESSOR, a novel framework that learns a task-agnostic reward function from videos, enabling policy training through goal-conditioned reinforcement learning (RL) without manual supervision. Underlying this reward is an estimate of the distribution over task progress as a function of the current, initial, and goal observations that is learned in a self-supervised fashion. Crucially, PROGRESSOR refines rewards adversarially during online RL training by pushing back predictions for out-of-distribution observations, to mitigate distribution shift inherent in non-expert observations. Utilizing this progress prediction as a dense reward together with an adversarial push-back, we show that PROGRESSOR enables robots to learn complex behaviors without any external supervision. Pretrained on large-scale egocentric human video from EPIC-KITCHENS, PROGRESSOR requires no fine-tuning on in-domain task-specific data for generalization to real-robot offline RL under noisy demonstrations, outperforming contemporary methods that provide dense visual reward for robotic learning. Our findings highlight the potential of PROGRESSOR for scalable robotic applications where direct action labels and task-specific rewards are not readily available.