COvolve: Adversarial Co-Evolution of Large-Language-Model-Generated Policies and Environments via Two-Player Zero-Sum Game

📄 arXiv: 2603.28386v1 📥 PDF

作者: Alkis Sygkounas, Rishi Hazra, Andreas Persson, Pedro Zuidberg Dos Martires, Amy Loutfi

分类: cs.AI

发布日期: 2026-03-30

备注: Accepted at GECCO 2026


💡 一句话要点

COvolve:通过零和博弈对抗协同进化LLM生成策略与环境,实现开放式学习。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 协同进化 大型语言模型 强化学习 零和博弈 开放式学习

📋 核心要点

  1. 现有强化学习环境静态或人工构建,限制了智能体的持续学习和泛化能力。
  2. COvolve利用LLM生成环境和策略,构建双人零和博弈,实现环境与策略的对抗协同进化。
  3. 实验表明,COvolve能够生成复杂度逐渐增加的环境,实现无需人工干预的开放式学习。

📝 摘要(中文)

构建持续改进的智能体的一个核心挑战是,训练环境通常是静态的或手动构建的。这限制了持续学习和超出训练分布的泛化。我们提出了COvolve,一个协同进化框架,它利用大型语言模型(LLM)来生成环境和智能体策略,策略以可执行的Python代码表示。我们将环境和策略设计者之间的交互建模为一个双人零和博弈,确保对抗性协同进化,其中环境暴露策略的弱点,而策略则做出适应性反应。这个过程诱导了一个自动课程,其中环境和策略协同进化,朝着越来越高的复杂性发展。为了保证鲁棒性并防止课程进展中的遗忘,我们计算了零和博弈的混合策略纳什均衡(MSNE),从而产生一个元策略。这个MSNE元策略确保智能体在学习解决以前未见过的环境的同时,不会忘记解决以前见过的环境。在城市驾驶、符号迷宫求解和几何导航方面的实验表明,COvolve产生了逐渐复杂的环境。我们的结果证明了LLM驱动的协同进化在没有预定义的任务分布或人工干预的情况下实现开放式学习的潜力。

🔬 方法详解

问题定义:现有强化学习方法依赖于静态或手动设计的环境,这限制了智能体在复杂和动态环境中持续学习和泛化的能力。如何自动生成具有挑战性的环境,并训练智能体适应这些环境,是当前研究面临的痛点。

核心思路:COvolve的核心思路是将环境和策略的设计过程建模为一个双人零和博弈。LLM被用来生成环境和策略,环境设计者试图创建能够暴露策略弱点的环境,而策略设计者则试图开发能够适应各种环境的策略。这种对抗性的协同进化过程能够自动生成一个难度逐渐增加的课程,从而提高智能体的学习能力和泛化能力。

技术框架:COvolve框架包含两个主要模块:环境生成器和策略生成器,两者都由LLM驱动。环境生成器根据策略的弱点生成新的环境,策略生成器则根据环境的挑战性改进策略。这两个模块通过零和博弈进行交互,目标是找到一个混合策略纳什均衡(MSNE),该均衡代表了智能体在所有环境下的最优策略。为了防止遗忘,COvolve使用MSNE元策略,确保智能体在学习新环境的同时,不会忘记如何解决旧环境。

关键创新:COvolve的关键创新在于利用LLM自动生成环境和策略,并将其建模为一个对抗性的协同进化过程。这种方法摆脱了对人工设计的环境的依赖,能够自动生成一个难度逐渐增加的课程,从而提高智能体的学习能力和泛化能力。此外,使用MSNE元策略可以有效地防止遗忘,确保智能体在不断学习新知识的同时,不会忘记旧知识。

关键设计:COvolve使用LLM生成Python代码作为环境和策略。环境生成器的目标是最大化策略的损失,而策略生成器的目标是最小化损失。MSNE的计算使用迭代算法,通过不断调整环境和策略的混合比例来逼近纳什均衡。具体的损失函数和网络结构取决于具体的任务,例如,在城市驾驶任务中,可以使用车辆的碰撞次数作为损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

COvolve在城市驾驶、符号迷宫求解和几何导航等任务中取得了显著成果。实验表明,COvolve能够生成复杂度逐渐增加的环境,并训练出能够适应这些环境的智能体。与传统的强化学习方法相比,COvolve能够显著提高智能体的学习效率和泛化能力。例如,在城市驾驶任务中,COvolve能够使智能体在更短的时间内学会安全驾驶,并能够适应各种复杂的交通场景。

🎯 应用场景

COvolve具有广泛的应用前景,可用于自动驾驶、机器人导航、游戏AI等领域。通过自动生成具有挑战性的训练环境,可以提高智能体在复杂和动态环境中的适应能力和鲁棒性。此外,COvolve还可以用于教育领域,自动生成个性化的学习课程,帮助学生更好地掌握知识。

📄 摘要(原文)

A central challenge in building continually improving agents is that training environments are typically static or manually constructed. This restricts continual learning and generalization beyond the training distribution. We address this with COvolve, a co-evolutionary framework that leverages large language models (LLMs) to generate both environments and agent policies, expressed as executable Python code. We model the interaction between environment and policy designers as a two-player zero-sum game, ensuring adversarial co-evolution in which environments expose policy weaknesses and policies adapt in response. This process induces an automated curriculum in which environments and policies co-evolve toward increasing complexity. To guarantee robustness and prevent forgetting as the curriculum progresses, we compute the mixed-strategy Nash equilibrium (MSNE) of the zero-sum game, thereby yielding a meta-policy. This MSNE meta-policy ensures that the agent does not forget to solve previously seen environments while learning to solve previously unseen ones. Experiments in urban driving, symbolic maze-solving, and geometric navigation showcase that COvolve produces progressively more complex environments. Our results demonstrate the potential of LLM-driven co-evolution to achieve open-ended learning without predefined task distributions or manual intervention.