PolicyEvolve: Evolving Programmatic Policies by LLMs for multi-player games via Population-Based Training

📄 arXiv: 2509.06053v1 📥 PDF

作者: Mingrui Lv, Hangzhi Liu, Zhi Luo, Hongjie Zhang, Jie Ou

分类: cs.LG, cs.AI

发布日期: 2025-09-07


💡 一句话要点

PolicyEvolve:利用LLM进化程序化策略,通过群体训练解决多人游戏问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体强化学习 程序化策略 大型语言模型 群体训练 可解释性 多人游戏 策略进化

📋 核心要点

  1. 现有MARL方法训练对抗策略需要大量样本和计算资源,且策略缺乏可解释性,限制了实际应用。
  2. PolicyEvolve利用LLM生成程序化策略,通过全局池和局部池的迭代优化,减少人工干预和环境交互。
  3. PolicyEvolve框架通过轨迹评论器分析策略漏洞并指导改进,最终生成高性能且可解释的策略。

📝 摘要(中文)

多智能体强化学习(MARL)在通过自博弈解决复杂多人游戏方面取得了显著进展。然而,训练有效的对抗策略需要数百万的经验样本和大量的计算资源。此外,这些策略缺乏可解释性,阻碍了它们的实际部署。最近,研究人员成功地利用大型语言模型(LLM)为单智能体任务生成程序化策略,将基于神经网络的策略转化为具有高执行效率的可解释的基于规则的代码。受此启发,我们提出了PolicyEvolve,这是一个用于在多人游戏中生成程序化策略的通用框架。PolicyEvolve显著减少了对人工设计的策略代码的依赖,以最小的环境交互实现了高性能策略。该框架包括四个模块:全局池、局部池、策略规划器和轨迹评论器。全局池保存迭代训练期间积累的精英策略。局部池存储当前迭代的临时策略;只有来自该池的性能足够高的策略才会被提升到全局池。策略规划器是核心策略生成模块。它从全局池中抽取前三个策略,基于环境信息为当前迭代生成初始策略,并使用来自轨迹评论器的反馈来改进该策略。改进后的策略随后被放入局部池。这个迭代过程一直持续到策略相对于全局池达到足够高的平均胜率,此时它被集成到全局池中。轨迹评论器分析来自当前策略的交互数据,识别漏洞,并提出方向性改进建议,以指导策略规划器。

🔬 方法详解

问题定义:现有的多智能体强化学习方法在解决多人游戏问题时,需要大量的训练数据和计算资源才能获得有效的对抗策略。此外,训练得到的策略通常是黑盒模型,缺乏可解释性,难以理解和调试,阻碍了其在实际场景中的应用。人工设计策略代码虽然具有可解释性,但需要耗费大量的人力成本。

核心思路:PolicyEvolve的核心思路是利用大型语言模型(LLM)生成程序化的策略代码,并结合群体训练的思想,通过迭代优化来提升策略的性能。通过将神经网络策略转化为可解释的规则代码,提高策略的可理解性和可调试性,同时减少对大量训练数据的依赖。

技术框架:PolicyEvolve框架包含四个主要模块: 1. 全局池(Global Pool):存储迭代训练过程中表现优异的精英策略。 2. 局部池(Local Pool):存储当前迭代中生成的临时策略,只有表现足够好的策略才能晋升到全局池。 3. 策略规划器(Policy Planner):利用LLM生成策略代码,从全局池中采样策略,并根据环境信息生成初始策略,然后根据轨迹评论器的反馈进行改进。 4. 轨迹评论器(Trajectory Critic):分析当前策略的交互数据,识别策略的弱点,并提出改进方向,指导策略规划器。

关键创新:PolicyEvolve的关键创新在于将LLM与群体训练相结合,自动生成和优化程序化的多智能体策略。与传统的MARL方法相比,它减少了对大量训练数据的依赖,提高了策略的可解释性,并降低了人工设计策略的成本。通过轨迹评论器对策略进行针对性的改进,加速了策略的优化过程。

关键设计: * 全局池和局部池:通过全局池保存精英策略,局部池探索新策略,实现探索与利用的平衡。 * 策略规划器:利用LLM生成策略代码,需要设计合适的prompt,引导LLM生成符合游戏规则和策略目标的程序。 * 轨迹评论器:需要设计有效的算法来分析策略的交互数据,识别策略的弱点,并提出可行的改进建议。具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的PolicyEvolve框架能够以较少的环境交互次数生成高性能的程序化策略。通过与全局池中的策略进行对抗,不断提升策略的胜率。具体的性能数据和对比基线未知,但摘要强调了该方法在减少人工干预和提高策略可解释性方面的优势。

🎯 应用场景

PolicyEvolve框架具有广泛的应用前景,可以应用于各种多人游戏场景,例如棋牌游戏、电子竞技游戏和模拟对抗环境。该框架可以帮助开发者快速生成高性能且可解释的AI策略,降低开发成本,并为玩家提供更具挑战性和趣味性的游戏体验。此外,该方法还可以扩展到其他多智能体系统,例如机器人协作、交通控制和资源分配等领域。

📄 摘要(原文)

Multi-agent reinforcement learning (MARL) has achieved significant progress in solving complex multi-player games through self-play. However, training effective adversarial policies requires millions of experience samples and substantial computational resources. Moreover, these policies lack interpretability, hindering their practical deployment. Recently, researchers have successfully leveraged Large Language Models (LLMs) to generate programmatic policies for single-agent tasks, transforming neural network-based policies into interpretable rule-based code with high execution efficiency. Inspired by this, we propose PolicyEvolve, a general framework for generating programmatic policies in multi-player games. PolicyEvolve significantly reduces reliance on manually crafted policy code, achieving high-performance policies with minimal environmental interactions. The framework comprises four modules: Global Pool, Local Pool, Policy Planner, and Trajectory Critic. The Global Pool preserves elite policies accumulated during iterative training. The Local Pool stores temporary policies for the current iteration; only sufficiently high-performing policies from this pool are promoted to the Global Pool. The Policy Planner serves as the core policy generation module. It samples the top three policies from the Global Pool, generates an initial policy for the current iteration based on environmental information, and refines this policy using feedback from the Trajectory Critic. Refined policies are then deposited into the Local Pool. This iterative process continues until the policy achieves a sufficiently high average win rate against the Global Pool, at which point it is integrated into the Global Pool. The Trajectory Critic analyzes interaction data from the current policy, identifies vulnerabilities, and proposes directional improvements to guide the Policy Planner