SPIKE: An Adaptive Dual Controller Framework for Cost-Efficient Long-Horizon Game Agents

📄 arXiv: 2605.18636v1 📥 PDF

作者: Wencan Jiang, Jiangning Zhang, Jianbiao Mei, Jinzhuo Liu, Yu Yang, Xiaobin Hu, Zhucun Xue, Yong Liu, Dacheng Tao

分类: cs.CV

发布日期: 2026-05-18

备注: https://wencanjiang.github.io/projects/SPIKE/


💡 一句话要点

SPIKE:一种自适应双控制器框架,用于高性价比的长程游戏智能体

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长程决策 游戏AI 双控制器 自适应控制 事件触发 分层记忆 资源约束

📋 核心要点

  1. 现有长程游戏智能体在有限的计算资源下难以兼顾全局规划和快速响应,导致性能下降。
  2. SPIKE框架通过双控制器架构,将战略推理和反应式执行分离,并利用事件触发器自适应切换。
  3. 实验表明,SPIKE在StarDojo数据集上显著提升了成功率,并降低了令牌消耗和延迟。

📝 摘要(中文)

开放世界游戏中,长程多模态智能体必须在严格的令牌和延迟预算下,通过多次低级交互保持目标导向。现有方法通常需要在代价高昂的每步推理与可能漂移、重复失败且恢复不佳的反应式执行之间进行权衡。本文的核心思想是在局部稳定片段中复用战略推理,并在事件边界重新调用它。我们提出了SPIKE,一个自适应双控制器框架,用于高性价比的长程游戏控制。其战略控制器执行低频全局规划、失败分析和恢复,而反应式控制器在严格的令牌预算下处理快速局部执行。事件触发器监控视觉变化、任务进度、重复动作和失败信号,以决定控制应保持反应式还是升级为战略推理。分层记忆将状态-动作记忆库(SA-MB)中的短期经验重用与状态-动作知识图(SA-KG)中的结构化证据分开,允许每个控制器检索其需要的上下文。这种设计在多个反应式步骤中重用战略建议,支持在计划过时时进行局部覆盖,并为额外审议有用的时刻保留昂贵的推理。在StarDojo的Lite-100分割上,SPIKE将Lite-100成功率(SR)提高了5.0个百分点(相对38.5%),并将预算SR提高了9.3个百分点(相对75.6%)。它还减少了54.9%的令牌消耗和40.8%的延迟。消融实验表明,事件触发、反应式覆盖和异构记忆都有助于成功和恢复,支持选择性推理而不是每一步都推理。

🔬 方法详解

问题定义:现有长程游戏智能体需要在有限的计算资源(如token预算和延迟)下,完成复杂的任务。传统方法要么频繁进行全局规划,消耗大量资源;要么依赖简单的反应式策略,容易偏离目标或陷入局部最优。因此,如何在资源约束下实现高效的长程决策是一个关键问题。

核心思路:SPIKE的核心思路是采用双控制器架构,将战略规划和反应式执行解耦。战略控制器负责低频的全局规划、失败分析和恢复,而反应式控制器负责高频的局部执行。通过事件触发器,系统可以自适应地在两个控制器之间切换,从而在保证性能的同时降低计算成本。

技术框架:SPIKE框架包含以下几个主要模块:1) 战略控制器:负责全局规划和决策。2) 反应式控制器:负责快速响应环境变化和执行局部动作。3) 事件触发器:监控环境变化、任务进度、重复动作和失败信号,决定何时从反应式控制切换到战略控制。4) 分层记忆:包括状态-动作记忆库(SA-MB)和状态-动作知识图(SA-KG),分别用于存储短期经验和结构化知识,供两个控制器检索。

关键创新:SPIKE的关键创新在于其自适应的双控制器架构和事件触发机制。与传统的单控制器方法相比,SPIKE能够根据任务需求动态调整推理频率,从而在资源约束下实现更好的性能。事件触发机制能够有效地检测任务中的关键事件,并及时切换到战略控制,避免了反应式策略的漂移和失败。

关键设计:事件触发器基于多种信号(视觉变化、任务进度、重复动作、失败信号)的组合来判断是否需要切换到战略控制器。分层记忆的设计允许战略控制器和反应式控制器分别访问不同粒度的信息。反应式控制器可以Override战略控制器的输出,从而在计划过时时进行局部调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在StarDojo的Lite-100数据集上,SPIKE相比最强的Lite-100基线,成功率提升了5.0个百分点(相对提升38.5%),预算成功率提升了9.3个百分点(相对提升75.6%)。同时,SPIKE还减少了54.9%的令牌消耗和40.8%的延迟。消融实验验证了事件触发、反应式覆盖和异构记忆等关键组件的有效性。

🎯 应用场景

SPIKE框架可应用于各种需要长程决策和资源约束的场景,例如游戏AI、机器人导航、自动驾驶等。通过自适应地调整推理频率,SPIKE能够在有限的计算资源下实现高效的决策,从而提高系统的整体性能和鲁棒性。该研究对于开发更智能、更高效的AI系统具有重要的实际价值和未来影响。

📄 摘要(原文)

Long-horizon multimodal agents in open-world games must stay goal-directed across many low-level interactions under tight token and latency budgets. Existing approaches often trade off costly per-step reasoning against reactive execution that can drift, repeat failures, and recover poorly. Our key idea is to reuse strategic reasoning across locally stable segments and reinvoke it at event boundaries. We present SPIKE, an adaptive dual controller framework for cost-efficient long-horizon game control. Its Strategic Controller performs low-frequency global planning, failure analysis, and recovery, while its Reactive Controller handles fast local execution under a strict token budget. An Event Trigger monitors visual change, task progress, repeated actions, and failure signals to decide when control should stay reactive or escalate to strategic reasoning. Hierarchical Memory separates short-term experience reuse in the State-Action Memory Bank (SA-MB) from structured evidence in the State Action Knowledge Graph (SA-KG), allowing each controller to retrieve the context it needs. This design reuses strategic proposals over multiple reactive steps, supports local override when plans become stale, and reserves expensive reasoning for moments where extra deliberation is useful. On the Lite-100 split of StarDojo, SPIKE improves Lite-100 success rate (SR) by 5.0 percentage points (38.5% relative) over the strongest Lite-100 baseline and Budgeted SR by 9.3 points (75.6% relative) over the strongest budgeted baseline. It also reduces token consumption by 54.9% and latency by 40.8%. Ablations show that event triggering, reactive override, and heterogeneous memory each contribute to success and recovery, supporting selective reasoning rather than reasoning at every step.