Language-Model-Assisted Bi-Level Programming for Reward Learning from Internet Videos

📄 arXiv: 2410.09286v1 📥 PDF

作者: Harsh Mahesheka, Zhixian Xie, Zhaoran Wang, Wanxin Jin

分类: cs.RO, cs.AI

发布日期: 2024-10-11


💡 一句话要点

提出语言模型辅助的双层规划框架,从互联网视频中学习奖励函数

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模仿学习 奖励学习 互联网视频 视觉语言模型 大型语言模型 双层规划 强化学习 行为合成

📋 核心要点

  1. 现有方法依赖复杂流程从互联网视频中提取和处理运动数据,为强化学习代理学习奖励带来挑战。
  2. 提出一种双层规划框架,利用视觉-语言模型和大型语言模型,直接从视频中学习奖励函数,无需数据预处理。
  3. 实验表明,该方法能够从生物专家的视频中有效学习奖励函数,并合成复杂的行为。

📝 摘要(中文)

从演示中学习,特别是从人类和动物等生物专家那里学习,常常面临巨大的数据获取挑战。虽然最近的方法利用互联网视频进行学习,但它们需要复杂的、特定于任务的流程来提取和重新定位代理的运动数据。本文提出了一种语言模型辅助的双层规划框架,使强化学习代理能够直接从互联网视频中学习其奖励,绕过专门的数据准备。该框架包括两个层次:一个上层,其中视觉-语言模型 (VLM) 通过将学习者的行为与专家视频进行比较来提供反馈;一个下层,其中大型语言模型 (LLM) 将此反馈转换为奖励更新。VLM 和 LLM 在这个双层框架内协作,使用“链式法则”方法来推导奖励学习的有效搜索方向。该方法已通过 YouTube 视频的奖励学习验证,结果表明,所提出的方法能够从生物专家的视频中进行高效的奖励设计,以实现复杂的行为合成。

🔬 方法详解

问题定义:现有方法在利用互联网视频进行模仿学习时,需要针对特定任务设计复杂的数据处理流程,例如运动数据提取和重定向。这些流程不仅耗时耗力,而且可能引入误差,限制了从互联网视频中学习奖励函数的效率和泛化能力。因此,如何直接从原始视频数据中学习奖励函数,避免繁琐的数据预处理,是一个亟待解决的问题。

核心思路:本文的核心思路是利用视觉-语言模型(VLM)理解视频内容,并将其与强化学习代理的行为进行比较,从而提供反馈信号。然后,利用大型语言模型(LLM)将这些反馈信号转化为奖励函数的更新。通过VLM和LLM的协同工作,构建一个双层规划框架,实现从视频到奖励函数的直接学习。

技术框架:该框架包含两个主要层次:上层是VLM,负责分析专家视频和学习者行为,并提供比较反馈;下层是LLM,负责将VLM的反馈转化为奖励函数的更新。整个流程如下:1. 强化学习代理执行动作并生成行为轨迹。2. VLM将代理的行为轨迹与专家视频进行比较,生成反馈信号。3. LLM接收VLM的反馈信号,并将其转化为奖励函数的更新。4. 强化学习代理根据更新后的奖励函数进行学习,优化行为策略。这个过程迭代进行,直到代理学会模仿专家行为。

关键创新:该方法最重要的创新点在于利用VLM和LLM构建了一个双层规划框架,实现了从互联网视频到奖励函数的直接学习,无需人工设计数据处理流程。这种方法不仅简化了学习过程,而且提高了学习效率和泛化能力。此外,利用“链式法则”将VLM和LLM连接起来,保证了奖励学习的有效搜索方向。

关键设计:VLM的选择和训练是关键。论文中使用的VLM需要具备理解视频内容和比较不同行为的能力。LLM的设计也至关重要,需要能够将VLM的反馈转化为有效的奖励函数更新。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述。奖励函数的具体形式未知,但其更新方向由LLM根据VLM的反馈决定。

🖼️ 关键图片

img_0

📊 实验亮点

该论文通过在YouTube视频上进行奖励学习的实验验证了所提出方法的有效性。实验结果表明,该方法能够从生物专家的视频中进行高效的奖励设计,并合成复杂的行为。具体的性能数据和对比基线未知,但论文强调了该方法在简化学习流程和提高学习效率方面的优势。

🎯 应用场景

该研究成果可广泛应用于机器人、游戏AI、虚拟人物等领域。例如,可以利用互联网上的教学视频,训练机器人完成复杂的任务,如烹饪、组装家具等。此外,该方法还可以用于游戏AI的设计,使游戏角色能够模仿人类玩家的行为,提高游戏的真实性和趣味性。未来,该技术有望应用于更广泛的领域,例如医疗康复、教育培训等。

📄 摘要(原文)

Learning from Demonstrations, particularly from biological experts like humans and animals, often encounters significant data acquisition challenges. While recent approaches leverage internet videos for learning, they require complex, task-specific pipelines to extract and retarget motion data for the agent. In this work, we introduce a language-model-assisted bi-level programming framework that enables a reinforcement learning agent to directly learn its reward from internet videos, bypassing dedicated data preparation. The framework includes two levels: an upper level where a vision-language model (VLM) provides feedback by comparing the learner's behavior with expert videos, and a lower level where a large language model (LLM) translates this feedback into reward updates. The VLM and LLM collaborate within this bi-level framework, using a "chain rule" approach to derive a valid search direction for reward learning. We validate the method for reward learning from YouTube videos, and the results have shown that the proposed method enables efficient reward design from expert videos of biological agents for complex behavior synthesis.