SC2Arena and StarEvolve: Benchmark and Self-Improvement Framework for LLMs in Complex Decision-Making Tasks

📄 arXiv: 2508.10428v1 📥 PDF

作者: Pengbo Shen, Yaqing Wang, Ni Mu, Yao Luan, Runpeng Xie, Senhao Yang, Lexiang Wang, Hao Hu, Shuang Xu, Yiqin Yang, Bo Xu

分类: cs.LG

发布日期: 2025-08-14


💡 一句话要点

提出SC2Arena和StarEvolve,用于评估和提升LLM在复杂决策任务中的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 复杂决策 星际争霸II 强化学习 分层规划 自校正 基准测试 游戏AI

📋 核心要点

  1. 现有星际争霸II基准测试未能充分捕捉游戏的复杂性,例如完整的游戏上下文、多样化的动作空间和所有可玩种族。
  2. 论文提出SC2Arena基准测试和StarEvolve框架,前者全面支持所有种族和底层动作,后者通过分层规划和自校正提升性能。
  3. 实验结果表明,StarEvolve在战略规划方面优于现有方法,并为开发通用智能体提供了新的可能性。

📝 摘要(中文)

为了评估大型语言模型(LLMs)在复杂决策中的能力,本文提出了SC2Arena,一个全面支持星际争霸II所有可玩种族、底层动作空间,并优化了基于文本的观测以应对空间推理挑战的基准。同时,引入了StarEvolve,一个集成了战略规划与战术执行的分层框架,通过迭代自校正和基于高质量游戏数据的微调实现持续改进。该框架包含一个Planner-Executor-Verifier结构来分解游戏过程,以及一个用于选择高质量训练样本的评分系统。使用SC2Arena的全面分析为开发通用智能体提供了有价值的见解。实验结果表明,StarEvolve在战略规划方面表现出色。代码、环境和算法均已公开。

🔬 方法详解

问题定义:现有星际争霸II的LLM智能体研究,缺乏一个能够全面评估模型在复杂决策场景下能力的基准。现有基准通常只支持部分种族,简化了动作空间,并且在空间推理方面存在挑战。这限制了LLM在复杂决策任务中的潜力。

核心思路:论文的核心思路是构建一个更全面、更真实的星际争霸II环境(SC2Arena),并设计一个能够有效利用LLM进行战略规划和战术执行的框架(StarEvolve)。通过分层结构,将复杂的游戏过程分解为可管理的子任务,并利用自校正机制不断提升性能。

技术框架:StarEvolve框架采用Planner-Executor-Verifier (PEV) 结构。Planner负责制定战略计划,Executor负责执行计划中的具体动作,Verifier负责评估执行结果并进行反馈。此外,框架还包含一个评分系统,用于评估游戏数据的质量,并选择高质量的数据进行微调,从而实现持续改进。

关键创新:StarEvolve的关键创新在于其分层规划和自校正机制。通过将游戏过程分解为战略规划和战术执行两个层次,并利用Verifier进行反馈,可以有效地提升LLM在复杂决策任务中的性能。此外,高质量游戏数据选择机制也保证了模型能够从有效的经验中学习。

关键设计:在Planner模块中,使用了LLM进行战略规划,并将其输出转化为可执行的指令。Executor模块负责将指令转化为具体的游戏动作。Verifier模块则根据游戏状态和执行结果,对Planner和Executor进行评估,并生成反馈信号。高质量数据选择机制则基于游戏胜负、资源利用率等指标对游戏数据进行评分,并选择高分数据进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,StarEvolve在战略规划方面取得了显著的性能提升。通过与现有基线方法进行对比,StarEvolve在SC2Arena基准测试中表现出更强的战略规划能力和更高的胜率。具体的性能数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于开发更智能的AI游戏助手、自动化策略规划系统,以及在资源管理、任务调度等复杂决策场景中辅助人类决策。此外,SC2Arena作为一个全面的基准,可以促进LLM在复杂决策任务中的研究和发展。

📄 摘要(原文)

Evaluating large language models (LLMs) in complex decision-making is essential for advancing AI's ability for strategic planning and real-time adaptation. However, existing benchmarks for tasks like StarCraft II fail to capture the game's full complexity, such as its complete game context, diverse action spaces, and all playable races. To address this gap, we present SC2Arena, a benchmark that fully supports all playable races, low-level action spaces, and optimizes text-based observations to tackle spatial reasoning challenges. Complementing this, we introduce StarEvolve, a hierarchical framework that integrates strategic planning with tactical execution, featuring iterative self-correction and continuous improvement via fine-tuning on high-quality gameplay data. Its key components include a Planner-Executor-Verifier structure to break down gameplay, and a scoring system for selecting high-quality training samples. Comprehensive analysis using SC2Arena provides valuable insights into developing generalist agents that were not possible with previous benchmarks. Experimental results also demonstrate that our proposed StarEvolve achieves superior performance in strategic planning. Our code, environment, and algorithms are publicly available.