A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning

📄 arXiv: 2410.14660v1 📥 PDF

作者: Shengjie Sun, Runze Liu, Jiafei Lyu, Jing-Wen Yang, Liangpeng Zhang, Xiu Li

分类: cs.LG

发布日期: 2024-10-18


💡 一句话要点

提出CARD框架,通过动态反馈的LLM驱动奖励函数设计,提升强化学习性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 奖励函数设计 大语言模型 动态反馈 轨迹偏好评估

📋 核心要点

  1. 现有奖励函数设计依赖人工、多次LLM查询或重复RL训练,效率低下且成本高昂。
  2. CARD框架通过Coder生成和验证代码,Evaluator提供动态反馈,迭代优化奖励函数代码。
  3. 引入轨迹偏好评估TPE,避免频繁RL训练,加速奖励函数与任务目标的对齐。

📝 摘要(中文)

本文提出了一种基于大语言模型(LLM)驱动的奖励函数设计框架CARD,用于强化学习任务。该框架旨在解决现有方法中需要人工干预、多次LLM查询或重复RL训练的问题。CARD包含一个生成和验证代码的Coder以及一个提供动态反馈以指导Coder改进代码的Evaluator,无需人工反馈。除了过程反馈和轨迹反馈,CARD还引入了轨迹偏好评估(TPE),基于轨迹偏好评估当前奖励函数。如果代码未能通过TPE,Evaluator会提供偏好反馈,避免每次迭代都进行RL训练,使奖励函数更好地与任务目标对齐。在Meta-World和ManiSkill2上的实验结果表明,该方法在任务性能和token效率之间取得了有效平衡,优于或匹配所有任务的基线。在12个任务中的10个上,CARD表现出比使用专家设计的奖励训练的策略更好或相当的性能,并且该方法甚至在3个任务上超过了oracle。

🔬 方法详解

问题定义:现有强化学习奖励函数设计方法存在诸多痛点。人工设计奖励函数耗时耗力,且需要专业知识。利用大语言模型生成奖励函数的方法,通常需要大量的人工干预,或者需要多次查询LLM,计算资源消耗大。此外,一些方法需要在每次迭代中进行强化学习训练,进一步增加了计算成本。因此,如何高效、自动地设计高质量的奖励函数,是本文要解决的核心问题。

核心思路:本文的核心思路是利用大语言模型的能力,自动生成和优化奖励函数代码,并通过动态反馈机制,指导LLM不断改进代码,使其更好地与任务目标对齐。关键在于设计一个有效的反馈机制,能够准确评估当前奖励函数的质量,并提供有针对性的改进建议,从而避免不必要的强化学习训练。

技术框架:CARD框架主要包含两个核心模块:Coder和Evaluator。Coder负责生成和验证奖励函数代码。Evaluator负责提供动态反馈,指导Coder改进代码。Evaluator的反馈包括过程反馈、轨迹反馈和轨迹偏好评估(TPE)。过程反馈基于代码的语法和逻辑进行评估,轨迹反馈基于少量强化学习训练数据进行评估,TPE则基于轨迹偏好进行评估,无需进行完整的强化学习训练。整个流程是一个迭代过程,Coder根据Evaluator的反馈不断改进代码,直到满足任务目标。

关键创新:CARD框架的关键创新在于引入了轨迹偏好评估(TPE)。TPE通过比较不同轨迹的优劣,直接评估奖励函数的质量,而无需进行完整的强化学习训练。这大大提高了奖励函数设计的效率,并避免了因奖励函数不佳而导致的训练失败。此外,CARD框架的动态反馈机制,能够更有效地指导LLM改进代码,使其更好地与任务目标对齐。

关键设计:TPE模块的设计是关键。具体来说,TPE首先生成多个轨迹,然后通过某种方式(例如,人工标注或基于任务目标的启发式方法)对这些轨迹进行排序。然后,TPE评估当前奖励函数对这些轨迹的排序是否与真实排序一致。如果一致性较低,则Evaluator会向Coder提供偏好反馈,指导Coder改进奖励函数,使其能够更好地区分不同轨迹的优劣。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Meta-World和ManiSkill2等多个任务上的实验结果表明,CARD框架在任务性能和token效率之间取得了有效平衡,优于或匹配所有基线方法。在12个任务中的10个上,CARD表现出比使用专家设计的奖励训练的策略更好或相当的性能,并且在3个任务上甚至超过了oracle。这些结果表明,CARD框架能够有效地自动设计高质量的奖励函数,并显著提升强化学习的性能。

🎯 应用场景

该研究成果可广泛应用于机器人控制、游戏AI、自动驾驶等领域。通过自动设计高质量的奖励函数,可以降低强化学习的应用门槛,加速智能体的开发和部署。未来,该方法有望扩展到更复杂的任务和环境,实现更智能、更自主的智能体。

📄 摘要(原文)

Large Language Models (LLMs) have shown significant potential in designing reward functions for Reinforcement Learning (RL) tasks. However, obtaining high-quality reward code often involves human intervention, numerous LLM queries, or repetitive RL training. To address these issues, we propose CARD, a LLM-driven Reward Design framework that iteratively generates and improves reward function code. Specifically, CARD includes a Coder that generates and verifies the code, while a Evaluator provides dynamic feedback to guide the Coder in improving the code, eliminating the need for human feedback. In addition to process feedback and trajectory feedback, we introduce Trajectory Preference Evaluation (TPE), which evaluates the current reward function based on trajectory preferences. If the code fails the TPE, the Evaluator provides preference feedback, avoiding RL training at every iteration and making the reward function better aligned with the task objective. Empirical results on Meta-World and ManiSkill2 demonstrate that our method achieves an effective balance between task performance and token efficiency, outperforming or matching the baselines across all tasks. On 10 out of 12 tasks, CARD shows better or comparable performance to policies trained with expert-designed rewards, and our method even surpasses the oracle on 3 tasks.