Beyond Static Evaluation: Co-Evolutionary Mechanisms for LLM-Driven Strategy Evolution in Adversarial Games
作者: Haoran Li, Zengle Ge, Ziyang Zhang, Xiaomin Yuan, Yui Lo, Qianhui Liu, Bocheng An, Dongke Rong, Jiaqun Liu, Annan Li, Jianmin Wu, Dawei Yin, Dou Shen
分类: cs.AI
发布日期: 2026-06-09
🔗 代码/项目: GITHUB
💡 一句话要点
提出共进化机制以解决对抗游戏中策略演化的评估挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗游戏 策略演化 大型语言模型 共进化机制 智能体训练 自动化发现
📋 核心要点
- 现有的基于LLM的代码演化方法在对抗多智能体游戏中面临评估不可靠和演化停滞的挑战。
- 论文提出评估者共进化、分层深度评估和弱点压力三种机制,以动态适应策略改进带来的评估环境变化。
- 在MCTF 2026 3v3任务中,FAMOU框架表现优异,取得了最高得分和最佳泛化能力,验证了提出机制的有效性。
📝 摘要(中文)
近年来,基于大型语言模型(LLM)的代码演化技术在自动化程序发现方面取得了显著进展。然而,将这些方法应用于对抗多智能体游戏时,策略的改进导致评估环境发生变化,使得固定评估者变得不可靠,演化过程可能停滞。为此,本文提出了三种机制:评估者共进化、分层深度评估和弱点压力,以应对这一挑战。我们在FAMOU框架中实现了这些机制,并在MCTF 2026 3v3海上夺旗任务中表现优异,取得了最高综合得分(0.526)和对未见对手的最佳泛化能力(61.7%胜率),验证了每种机制对性能的贡献。值得注意的是,LLM变异过程生成了完全不同于种子策略的战术结构,展示了代码级演化在对抗环境中产生非平凡算法创新的潜力。
🔬 方法详解
问题定义:本文旨在解决在对抗多智能体游戏中,策略演化过程中评估环境变化导致的评估不可靠和演化停滞的问题。现有方法依赖固定评估者,无法适应策略的动态变化。
核心思路:论文提出的解决思路是通过引入共进化机制,使评估者与策略共同演化,从而提高评估的可靠性和演化的有效性。具体而言,评估者会根据当前的最佳策略进行动态调整。
技术框架:FAMOU框架的整体架构包括三个主要模块:评估者共进化模块、分层深度评估模块和弱点压力模块。评估者共进化模块将发现的冠军策略纳入对手池,分层深度评估模块使用统计方法替代噪声评分,而弱点压力模块则动态加权最难对手以突破演化瓶颈。
关键创新:本文的关键创新在于提出了三种机制,特别是评估者共进化和弱点压力,这与传统方法的固定评估者设计形成鲜明对比,能够更好地适应动态变化的对抗环境。
关键设计:在实现过程中,采用了多种参数设置和损失函数设计,以确保评估的统计可靠性。此外,网络结构设计上,采用了分层评估策略,以提高评估的准确性和有效性。具体的实现细节和代码已在公开的GitHub上提供。
🖼️ 关键图片
📊 实验亮点
FAMOU框架在MCTF 2026 3v3任务中表现突出,取得了0.526的最高综合得分和61.7%的最佳泛化能力,显著优于基线方法,验证了提出的共进化机制的有效性和实用性。
🎯 应用场景
该研究的潜在应用领域包括对抗游戏、智能体训练和自动化策略生成等。通过改进的评估机制,能够在复杂动态环境中实现更高效的策略演化,具有重要的实际价值和未来影响,尤其是在多智能体系统和游戏AI领域。
📄 摘要(原文)
Recent advances in LLM-driven code evolution have enabled automated discovery by iteratively generating and improving programs. However, applying these methods to adversarial multi-agent games introduces a fundamental challenge: the evaluation landscape shifts as strategies improve, causing fixed evaluators to become unreliable and evolution to stagnate. We propose three mechanisms to address this challenge: evaluator co-evolution, which incorporates discovered champions into the opponent pool; hierarchical deep evaluation, which replaces noisy few-game scores with statistically reliable assessments; and weakness pressure, which dynamically up-weights the most difficult opponents to break through plateaus. We implement these mechanisms within FAMOU, a framework built upon the same foundation-model code-evolution paradigm as OpenEvolve and ShinkaEvolve. On the MCTF 2026 3v3 maritime capture-the-flag task, FAMOU consistently outperforms both baselines under two backbone LLMs, achieving the highest combined score (0.526) and the best generalization to unseen opponents (61.7% win rate), while ablations confirm that each mechanism contributes to performance. Notably, the LLM mutation process generates tactical structures entirely absent from the seed strategies -- including lookahead search and adaptive interception -- demonstrating that code-level evolution can produce nontrivial algorithmic innovations in adversarial settings. The FAMOU-evolved strategy further achieved 1st place in the hardware round-robin and 3rd in simulation at the AAMAS 2026 MCTF Competition, validating its real-world transferability. The optimized implementation and corresponding evaluation codes developed through our evolutionary process are available at: https://github.com/1xiangliu1/FAMOU-CoEvo