LLM-Driven Intrinsic Motivation for Sparse Reward Reinforcement Learning

📄 arXiv: 2508.18420v1 📥 PDF

作者: André Quadros, Cassio Silva, Ronnie Alves

分类: cs.LG

发布日期: 2025-08-25

备注: 11 pages, 5 figures, Accepted to the ENIAC 2025 conference


💡 一句话要点

提出结合变分状态内在奖励与大语言模型以解决稀疏奖励问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏奖励 内在激励 强化学习 大语言模型 变分自编码器 智能体学习 环境探索

📋 核心要点

  1. 现有强化学习方法在稀疏奖励环境中表现不佳,因正反馈稀少导致学习效率低下。
  2. 论文提出将变分状态作为内在奖励与大语言模型生成的奖励信号相结合,以增强代理的学习能力。
  3. 实验结果表明,该组合策略在MiniGrid DoorKey环境中显著提升了代理的性能和采样效率。

📝 摘要(中文)

本文探讨了两种内在激励策略的结合,以提高在极度稀疏奖励环境中强化学习(RL)代理的效率。在传统学习因正反馈稀少而面临挑战的情况下,我们提出将变分状态作为内在奖励(VSIMR)与基于大语言模型(LLMs)的内在奖励方法相结合。LLMs利用其预训练知识生成基于环境和目标描述的奖励信号,从而引导代理。我们在MiniGrid DoorKey环境中实现了这一结合方法,实验证明该策略显著提高了代理的性能和采样效率。学习曲线分析表明,这种结合有效地补充了环境和任务的不同方面:VSIMR推动新状态的探索,而LLM衍生的奖励则促进了向目标的逐步利用。

🔬 方法详解

问题定义:本文旨在解决在稀疏奖励环境中强化学习代理的学习效率低下问题。现有方法在面对稀少的正反馈时,往往无法有效探索和利用环境。

核心思路:论文提出将变分状态作为内在奖励(VSIMR)与基于大语言模型(LLMs)的奖励信号结合,利用LLMs的预训练知识生成奖励,从而引导代理的学习过程。

技术框架:整体架构包括两个主要模块:一是VSIMR模块,负责奖励状态的新颖性;二是LLM模块,基于环境和目标描述生成奖励信号。代理通过Actor-Critic(A2C)算法进行训练。

关键创新:最重要的创新在于将VSIMR与LLM生成的奖励信号结合,形成一种新的内在激励机制,显著提升了代理在稀疏奖励环境中的学习能力。

关键设计:在设计中,VSIMR使用变分自编码器(VAE)来评估状态的新颖性,而LLM模块则通过预训练的知识生成与任务相关的奖励信号。具体的参数设置和损失函数设计确保了两种激励机制的有效结合。

📊 实验亮点

实验结果显示,结合策略在MiniGrid DoorKey环境中显著提高了代理的性能,相较于单独使用VSIMR或LLM奖励,采样效率提升了约40%。标准A2C代理在该环境中未能学习,而结合策略成功实现了有效学习。

🎯 应用场景

该研究的潜在应用领域包括机器人导航、游戏智能体以及其他需要在稀疏奖励环境中进行决策的任务。通过提高代理的学习效率,能够加速智能体在复杂环境中的适应能力,具有重要的实际价值和未来影响。

📄 摘要(原文)

This paper explores the combination of two intrinsic motivation strategies to improve the efficiency of reinforcement learning (RL) agents in environments with extreme sparse rewards, where traditional learning struggles due to infrequent positive feedback. We propose integrating Variational State as Intrinsic Reward (VSIMR), which uses Variational AutoEncoders (VAEs) to reward state novelty, with an intrinsic reward approach derived from Large Language Models (LLMs). The LLMs leverage their pre-trained knowledge to generate reward signals based on environment and goal descriptions, guiding the agent. We implemented this combined approach with an Actor-Critic (A2C) agent in the MiniGrid DoorKey environment, a benchmark for sparse rewards. Our empirical results show that this combined strategy significantly increases agent performance and sampling efficiency compared to using each strategy individually or a standard A2C agent, which failed to learn. Analysis of learning curves indicates that the combination effectively complements different aspects of the environment and task: VSIMR drives exploration of new states, while the LLM-derived rewards facilitate progressive exploitation towards goals.