Evolutionary Discovery of Reinforcement Learning Algorithms via Large Language Models

作者: Alkis Sygkounas, Amy Loutfi, Andreas Persson

分类: cs.LG, cs.AI

发布日期: 2026-03-30

备注: accepted at GECCO 2026

💡 一句话要点

利用大语言模型进化发现强化学习算法，无需人工设计更新规则。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 算法发现 进化算法 大语言模型 自动机器学习

📋 核心要点

传统强化学习算法依赖于人工设计的固定更新规则，缺乏灵活性和探索新算法的能力。
该论文提出使用大型语言模型驱动的进化框架，直接搜索可执行的更新规则，自动发现新的强化学习算法。
实验结果表明，进化发现的算法在多个Gymnasium基准测试中，性能可与SAC、PPO、DQN等经典算法相媲美。

📝 摘要（中文）

本文提出了一种进化框架，通过直接搜索可执行的更新规则来发现强化学习算法，这些规则实现了完整的训练过程。该方法基于REvolve，一个使用大型语言模型作为生成变异算子的进化系统，并将其从奖励函数发现扩展到算法发现。为了促进非标准学习规则的出现，搜索排除了诸如actor-critic结构、时序差分损失和价值引导等经典机制。由于强化学习算法对内部标量参数高度敏感，因此我们引入了一个进化后细化阶段，其中大型语言模型为每个进化的更新规则提出可行的超参数范围。通过在多个Gymnasium基准测试上进行完整训练运行的端到端评估，所发现的算法相对于已建立的基线（包括SAC、PPO、DQN和A2C）实现了具有竞争力的性能。

🔬 方法详解

问题定义：现有强化学习算法的更新规则通常由人工设计，缺乏自动探索和发现新算法的能力。此外，手动设计的算法往往依赖于特定的结构（如Actor-Critic）和损失函数（如时序差分），限制了算法的多样性。论文旨在解决如何自动发现高性能且具有新颖结构的强化学习算法的问题。

核心思路：论文的核心思路是利用大型语言模型（LLM）作为生成变异算子，在一个进化框架中搜索可执行的更新规则。通过进化过程，LLM能够生成新的、潜在的强化学习算法，并根据其在环境中的表现进行选择和优化。这种方法避免了手动设计算法的局限性，并允许探索更广泛的算法空间。

技术框架：该框架基于REvolve系统，主要包含以下几个阶段：1) 初始化：随机生成一组初始的强化学习算法（表示为可执行的更新规则）。2) 评估：在Gymnasium环境中评估每个算法的性能。3) 选择：根据性能选择表现最好的算法。4) 变异：使用LLM作为变异算子，对选定的算法进行变异，生成新的算法。5) 超参数优化：使用LLM为每个进化后的更新规则提出可行的超参数范围，并进行优化。重复2-5步，直到达到预定的进化步数。

关键创新：该论文最重要的技术创新点在于使用LLM作为生成变异算子，直接搜索可执行的更新规则。与传统的基于梯度下降的算法优化方法不同，该方法能够探索更广泛的算法空间，并发现具有新颖结构的算法。此外，论文还引入了一个进化后细化阶段，使用LLM进行超参数优化，进一步提升了算法的性能。

关键设计：为了促进非标准学习规则的出现，该方法排除了诸如actor-critic结构、时序差分损失和价值引导等经典机制。LLM被用于生成Python代码片段，这些代码片段定义了强化学习算法的更新规则。为了保证代码的正确性和安全性，使用了沙箱环境来执行生成的代码。超参数优化阶段，LLM被用于生成超参数的建议范围，然后使用标准的优化算法（如TPE）在建议范围内搜索最佳超参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过进化发现的算法在多个Gymnasium基准测试中取得了与SAC、PPO、DQN和A2C等经典算法相媲美的性能。这表明该方法能够有效地发现高性能的强化学习算法，并且具有一定的泛化能力。尤其值得注意的是，该方法发现的算法具有新颖的结构，不同于传统的基于梯度下降的算法。

🎯 应用场景

该研究成果可应用于自动化强化学习算法设计，加速新算法的发现过程。通过自动搜索算法空间，可以针对特定任务或环境定制高性能的强化学习算法，从而提高智能体的学习效率和性能。此外，该方法还可以用于探索新的学习机制和算法结构，推动强化学习领域的发展。

📄 摘要（原文）

Reinforcement learning algorithms are defined by their learning update rules, which are typically hand-designed and fixed. We present an evolutionary framework for discovering reinforcement learning algorithms by searching directly over executable update rules that implement complete training procedures. The approach builds on REvolve, an evolutionary system that uses large language models as generative variation operators, and extends it from reward-function discovery to algorithm discovery. To promote the emergence of nonstandard learning rules, the search excludes canonical mechanisms such as actor--critic structures, temporal-difference losses, and value bootstrapping. Because reinforcement learning algorithms are highly sensitive to internal scalar parameters, we introduce a post-evolution refinement stage in which a large language model proposes feasible hyperparameter ranges for each evolved update rule. Evaluated end-to-end by full training runs on multiple Gymnasium benchmarks, the discovered algorithms achieve competitive performance relative to established baselines, including SAC, PPO, DQN, and A2C.

Evolutionary Discovery of Reinforcement Learning Algorithms via Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理