Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning

📄 arXiv: 2409.02428v3 📥 PDF

作者: Guanwen Xie, Jingzehua Xu, Yiyuan Yang, Yimian Ding, Shuai Zhang

分类: cs.LG, cs.AI, cs.CL, eess.SY

发布日期: 2024-09-04 (更新: 2024-11-01)

期刊: AAAI (Student) 2025


💡 一句话要点

提出ERFSL,利用大语言模型高效搜索多目标强化学习自定义环境下的奖励函数。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 奖励函数设计 大语言模型 多目标优化 自定义环境

📋 核心要点

  1. 复杂自定义环境和多目标强化学习任务中,奖励函数的设计和改进是难点,现有方法难以有效应对。
  2. ERFSL利用LLM的语义理解能力,将LLM作为白盒搜索器,自动生成和优化奖励函数。
  3. 实验表明,ERFSL在水下数据收集任务中表现出色,仅需少量迭代即可满足用户需求,且适用于多种提示。

📝 摘要(中文)

在具有复杂自定义环境和多重需求的强化学习(RL)任务中,奖励函数的设计和改进面临巨大挑战。本文提出了一种利用大语言模型(LLM)的高效奖励函数搜索器ERFSL,使LLM成为有效的白盒搜索器,并突显其先进的语义理解能力。具体来说,我们为每个数值上明确的用户需求生成奖励分量,并使用奖励评论器来识别正确的代码形式。然后,LLM为奖励分量分配权重以平衡它们的值,并通过灵活地采用方向突变和交叉策略(类似于遗传算法),基于训练日志分析器提供的上下文,迭代地调整权重,避免歧义和冗余调整。我们将该框架应用于水下数据收集RL任务,无需直接的人工反馈或奖励示例(零样本学习)。奖励评论器仅需为每个需求提供一个反馈实例即可成功纠正奖励代码,有效防止了无法纠正的错误。权重的初始化使得能够在Pareto解集中获得不同的奖励函数,而无需进行权重搜索。即使权重平均偏差500倍,也仅需5.2次迭代即可满足用户需求。ERFSL在使用GPT-4o mini的大多数提示下也能很好地工作,因为我们分解了权重搜索过程,从而降低了对数值和长上下文理解能力的要求。

🔬 方法详解

问题定义:在复杂的自定义环境中,针对多目标强化学习任务,如何高效地设计和优化奖励函数是一个关键问题。现有的方法通常依赖于人工经验或试错法,效率低下且难以泛化到新的环境。此外,多目标优化需要平衡多个目标之间的关系,手动调整权重非常困难。

核心思路:ERFSL的核心思路是利用大语言模型(LLM)的语义理解和代码生成能力,将奖励函数的设计过程转化为一个搜索问题。通过将用户需求转化为奖励分量,并利用LLM自动调整这些分量的权重,从而实现奖励函数的优化。这种方法将LLM视为一个白盒搜索器,可以有效地利用其知识和推理能力。

技术框架:ERFSL的整体框架包括以下几个主要模块:1) 奖励分量生成器:根据用户提供的数值化需求,生成相应的奖励分量代码。2) 奖励评论器:对生成的奖励代码进行评估,并提供反馈,以纠正潜在的错误。3) 权重优化器:利用LLM调整奖励分量的权重,以平衡不同目标之间的关系。权重优化器采用类似于遗传算法的策略,包括方向突变和交叉,以加速搜索过程。4) 训练日志分析器:分析强化学习训练过程中的日志,为权重优化器提供上下文信息。

关键创新:ERFSL的关键创新在于将LLM应用于奖励函数搜索,并将其视为一个白盒搜索器。与传统的黑盒优化方法相比,ERFSL可以更好地利用LLM的知识和推理能力,从而更高效地找到合适的奖励函数。此外,ERFSL还引入了奖励评论器,可以有效地纠正奖励代码中的错误,提高了搜索的可靠性。

关键设计:ERFSL的关键设计包括:1) 奖励分量生成:将用户需求分解为数值化的指标,并为每个指标生成相应的奖励分量。2) 奖励评论器反馈:奖励评论器根据预定义的规则,对奖励代码进行评估,并提供具体的反馈信息,例如指出代码中的错误或提出改进建议。3) 权重优化策略:权重优化器采用方向突变和交叉策略,以加速搜索过程。方向突变根据训练日志分析器提供的上下文信息,选择合适的突变方向。交叉操作则将不同的权重组合进行混合,以探索更广阔的搜索空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ERFSL在水下数据收集任务中表现出色。奖励评论器仅需一次反馈即可纠正奖励代码错误。即使初始权重偏差较大(平均500倍),也仅需5.2次迭代即可满足用户需求。此外,ERFSL在使用GPT-4o mini的大多数提示下都能很好地工作,表明其具有较强的鲁棒性和泛化能力。

🎯 应用场景

ERFSL具有广泛的应用前景,可以应用于各种需要自定义环境和多目标优化的强化学习任务中,例如机器人控制、游戏AI、自动驾驶等。该方法可以显著降低奖励函数设计的难度,提高强化学习算法的性能,并加速新应用的开发。未来,ERFSL可以进一步扩展到更复杂的环境和任务中,并与其他强化学习技术相结合,以实现更强大的智能系统。

📄 摘要(原文)

Achieving the effective design and improvement of reward functions in reinforcement learning (RL) tasks with complex custom environments and multiple requirements presents considerable challenges. In this paper, we propose ERFSL, an efficient reward function searcher using LLMs, which enables LLMs to be effective white-box searchers and highlights their advanced semantic understanding capabilities. Specifically, we generate reward components for each numerically explicit user requirement and employ a reward critic to identify the correct code form. Then, LLMs assign weights to the reward components to balance their values and iteratively adjust the weights without ambiguity and redundant adjustments by flexibly adopting directional mutation and crossover strategies, similar to genetic algorithms, based on the context provided by the training log analyzer. We applied the framework to an underwater data collection RL task without direct human feedback or reward examples (zero-shot learning). The reward critic successfully corrects the reward code with only one feedback instance for each requirement, effectively preventing unrectifiable errors. The initialization of weights enables the acquisition of different reward functions within the Pareto solution set without the need for weight search. Even in cases where a weight is 500 times off, on average, only 5.2 iterations are needed to meet user requirements. The ERFSL also works well with most prompts utilizing GPT-4o mini, as we decompose the weight searching process to reduce the requirement for numerical and long-context understanding capabilities