Improving Sample Efficiency of Reinforcement Learning with Background Knowledge from Large Language Models

📄 arXiv: 2407.03964v1 📥 PDF

作者: Fuxiang Zhang, Junyou Li, Yi-Chen Li, Zongzhang Zhang, Yang Yu, Deheng Ye

分类: cs.CL, cs.LG

发布日期: 2024-07-04


💡 一句话要点

利用大语言模型背景知识提升强化学习样本效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大语言模型 样本效率 奖励塑造 背景知识 环境理解 知识表示

📋 核心要点

  1. 强化学习样本效率低是长期挑战,现有方法依赖任务特定知识,泛化性差。
  2. 利用大语言模型提取环境背景知识,一次性知识表示赋能多个下游任务。
  3. 实验表明,通过代码生成、偏好标注、目标分配等方式,显著提升了Minigrid和Crafter环境下的样本效率。

📝 摘要(中文)

强化学习(RL)中样本效率低是一个长期存在的挑战。随着通用大语言模型(LLM)的出现,最近的研究工作利用常识知识来加速RL过程中的策略学习。然而,我们注意到这种指导通常是为特定任务量身定制的,缺乏泛化性。在本文中,我们提出了一个框架,利用LLM提取环境的背景知识,其中包含对整个环境的通用理解,使各种下游RL任务受益于一次性的知识表示。我们通过输入少量预先收集的经验,并要求LLM描述环境的背景知识来 grounding LLM。然后,我们将输出的知识表示为基于势函数的奖励塑造的势函数,这具有保持任务奖励策略最优性的良好特性。我们实例化了三种变体来提示LLM获取背景知识,包括编写代码、注释偏好和分配目标。我们的实验表明,这些方法在Minigrid和Crafter领域的一系列下游任务中实现了显著的样本效率提升。

🔬 方法详解

问题定义:强化学习在复杂环境中训练智能体时,通常需要大量的样本才能学习到有效的策略,即样本效率低。现有的利用大语言模型辅助强化学习的方法,往往针对特定任务进行知识引导,缺乏通用性,难以迁移到其他任务上。这种任务定制化的知识获取方式,限制了其在实际应用中的价值。

核心思路:本文的核心思路是利用大语言模型(LLM)提取环境的背景知识,这些背景知识是对整个环境的通用理解,而不是针对特定任务的。通过一次性地提取和表示这些背景知识,可以使多个下游强化学习任务受益,从而提高样本效率和泛化能力。这种方法类似于人类学习环境的通用规则,然后利用这些规则来解决不同的问题。

技术框架:该框架主要包含两个阶段:知识提取阶段和知识应用阶段。在知识提取阶段,首先收集少量环境交互经验,然后将这些经验输入到LLM中,提示LLM生成环境的背景知识。LLM可以通过多种方式生成背景知识,例如编写代码、标注偏好或分配目标。在知识应用阶段,将LLM生成的背景知识表示为势函数,并将其用于基于势函数的奖励塑造。奖励塑造可以引导智能体更快地学习到最优策略,同时保持策略的最优性。

关键创新:该论文的关键创新在于利用LLM提取环境的通用背景知识,并将其用于奖励塑造,从而提高强化学习的样本效率和泛化能力。与现有方法相比,该方法不需要针对每个任务定制知识,而是通过一次性地提取通用知识,使多个任务受益。此外,该方法通过势函数来表示背景知识,保证了策略的最优性。

关键设计:论文提出了三种提示LLM生成背景知识的变体:1) 编写代码:提示LLM编写描述环境规则的代码;2) 标注偏好:提示LLM标注不同状态的偏好程度;3) 分配目标:提示LLM为智能体分配不同的目标。这些变体都旨在让LLM理解环境的通用规则和结构。奖励塑造采用基于势函数的方法,势函数由LLM生成的背景知识表示。具体的势函数形式和奖励塑造系数需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Minigrid和Crafter等多个环境中的一系列下游任务中,实现了显著的样本效率提升。例如,在某些任务中,该方法可以将学习所需的样本数量减少50%以上。与没有使用LLM背景知识的基线方法相比,该方法能够更快地学习到最优策略,并取得更高的累积奖励。

🎯 应用场景

该研究成果可应用于机器人导航、游戏AI、自动驾驶等领域。通过利用大语言模型提供的背景知识,可以显著降低强化学习算法对样本的需求,加速智能体在复杂环境中的学习过程。未来,该方法有望扩展到更复杂的环境和任务中,实现更高效、更智能的自主学习系统。

📄 摘要(原文)

Low sample efficiency is an enduring challenge of reinforcement learning (RL). With the advent of versatile large language models (LLMs), recent works impart common-sense knowledge to accelerate policy learning for RL processes. However, we note that such guidance is often tailored for one specific task but loses generalizability. In this paper, we introduce a framework that harnesses LLMs to extract background knowledge of an environment, which contains general understandings of the entire environment, making various downstream RL tasks benefit from one-time knowledge representation. We ground LLMs by feeding a few pre-collected experiences and requesting them to delineate background knowledge of the environment. Afterward, we represent the output knowledge as potential functions for potential-based reward shaping, which has a good property for maintaining policy optimality from task rewards. We instantiate three variants to prompt LLMs for background knowledge, including writing code, annotating preferences, and assigning goals. Our experiments show that these methods achieve significant sample efficiency improvements in a spectrum of downstream tasks from Minigrid and Crafter domains.