Evaluating Large Language Models as Live Strategic Agents: Provider Performance, Hybrid Decomposition, and Operational Gaps in Timed Risk Play

📄 arXiv: 2605.22238v1 📥 PDF

作者: H. C. Ekne

分类: cs.AI

发布日期: 2026-05-21

备注: 13 pages, 7 figures. Code and tracked notes: https://github.com/hcekne/risk-game . Public runtime artifact index: https://github.com/hcekne/risk-game/blob/main/docs/article-plans/public_experiment_artifacts.md


💡 一句话要点

在限时Risk游戏中评估大型语言模型作为实时战略智能体的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 实时智能体 战略决策 Risk游戏 性能评估

📋 核心要点

  1. 现有静态基准测试无法全面评估LLM在实际应用中,特别是具有时间限制和复杂约束的动态环境下的性能。
  2. 论文提出在限时多阶段Risk游戏中评估LLM,通过重复计划和执行周期,模拟真实世界中智能体的决策过程。
  3. 实验结果表明,Gemini在端到端游戏中表现优异,但在分离计划和执行后,各模型性能接近,揭示了系统行为的重要性。

📝 摘要(中文)

静态基准测试仅能捕捉大型语言模型在实践中行为的部分特征。真实系统将模型置于具有时间限制、格式约束和失败模式的重复循环中。本文在一个限时的多阶段Risk环境中研究了这种设置,该环境具有明确的胜利目标和重复的计划与执行周期。在规则固定的32局跨提供商冠军赛中,gemini-3.1-pro-preview 赢得了 32 局比赛中的 20 局,击败了 gpt-5.1、claude-opus-4-7 和 kimi-k2.6,并且获胜者分布与等强度零假设存在显著差异(p ≈ 1.5 x 10^-5)。然后,通过在更便宜的 Gemini Flash 支架上标准化执行来分离计划和执行。在这种设计下,32 局规划器对抗赛的结果与接近相等的情况一致(p ≈ 0.821),这表明早期提供商之间的差异主要来自端到端系统行为,而不是单独的规划。为了研究机制,本文分析了提供商冠军赛中保存的计划和执行轨迹。Gemini 比其他模型更频繁地提及最终目标,并且随着胜利的临近,这种关注度会增加。Gemini 还将更多的回合转化为深度征服链,即使它不是最干净的运行时。这些结果表明,实时智能体的性能取决于目标跟踪、执行转换、成本和运行时可靠性,并且支持将 LLM 评估为有界工作流中的组件,而不是作为孤立的基准测试响应者。

🔬 方法详解

问题定义:现有的大型语言模型评估方法主要依赖于静态基准测试,无法充分反映模型在实际应用中,特别是在具有时间限制、格式约束和失败模式的动态环境下的性能。这些静态基准测试忽略了模型在重复循环中与环境交互的能力,以及在复杂约束下进行决策和执行的能力。因此,需要一种更贴近实际应用场景的评估方法,以全面了解LLM的性能。

核心思路:本文的核心思路是在一个限时的多阶段Risk游戏中评估LLM作为实时战略智能体的性能。通过模拟真实世界中智能体需要在有限时间内进行计划、决策和执行的场景,来评估LLM在复杂约束下的性能。同时,通过分离计划和执行阶段,分析LLM的规划能力和执行能力,从而更深入地了解LLM的优势和不足。

技术框架:本文的技术框架主要包括以下几个部分:1) 构建一个限时的多阶段Risk游戏环境,该环境具有明确的胜利目标和重复的计划与执行周期。2) 将LLM作为智能体置于该环境中,进行游戏。3) 记录LLM的计划和执行轨迹,并进行分析。4) 分离计划和执行阶段,分别评估LLM的规划能力和执行能力。5) 对比不同LLM的性能,并分析其差异。

关键创新:本文的关键创新在于:1) 提出了一种新的评估LLM的方法,该方法更贴近实际应用场景,能够更全面地评估LLM的性能。2) 通过分离计划和执行阶段,更深入地了解LLM的规划能力和执行能力。3) 通过分析LLM的计划和执行轨迹,揭示了LLM在游戏中的决策过程和策略。

关键设计:在实验设计中,采用了32局跨提供商冠军赛,对比了gemini-3.1-pro-preview、gpt-5.1、claude-opus-4-7 和 kimi-k2.6 等多个LLM的性能。同时,通过标准化执行过程,使用更便宜的 Gemini Flash 支架,来分离计划和执行阶段。在分析LLM的计划和执行轨迹时,关注了LLM对最终目标的提及频率,以及将回合转化为深度征服链的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在端到端游戏中,gemini-3.1-pro-preview 赢得了 32 局比赛中的 20 局,显著优于 gpt-5.1、claude-opus-4-7 和 kimi-k2.6(p ≈ 1.5 x 10^-5)。然而,在分离计划和执行阶段后,各模型性能接近(p ≈ 0.821),表明端到端系统行为对性能有重要影响。Gemini 更频繁地提及最终目标,并能将更多回合转化为深度征服链。

🎯 应用场景

该研究成果可应用于评估和优化LLM在实时决策、任务规划和智能体控制等领域的应用。例如,可用于开发更强大的游戏AI、智能客服、自动驾驶系统等。通过深入了解LLM在复杂环境下的行为模式,可以更好地设计和部署LLM,提高其在实际应用中的性能和可靠性。

📄 摘要(原文)

Static benchmarks capture only part of how large language models behave in practice. Real systems place models inside repeated loops with time limits, formatting constraints, and failure modes. We study this setting in a timed multi-phase Risk environment with explicit victory targets and repeated planning and execution cycles. In a replicated 32-game cross-provider championship under frozen rules, gemini-3.1-pro-preview won 20 of 32 games against gpt-5.1, claude-opus-4-7, and kimi-k2.6, and the pooled winner distribution differs strongly from an equal-strength null (p approx 1.5 x 10^-5). We then separate planning from execution by standardizing execution on a cheaper Gemini Flash scaffold. Under this design, a pooled 32-game planner bakeoff is consistent with near-equality (p approx 0.821), which indicates that much of the earlier provider spread came from end-to-end system behavior rather than planning alone. To study mechanism, we analyze saved planning and execution traces from the provider championship. Gemini refers to the terminal objective far more often than the other models and increases that focus as victory approaches. Gemini also converts more turns into deep conquest chains, even though it is not the cleanest runtime. These results show that live-agent performance depends on objective tracking, execution conversion, cost, and runtime reliability, and they support evaluating LLMs as components in bounded workflows rather than as isolated benchmark respondents.