TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents
作者: Dawei Wang, Chengming Zhou, Di Zhao, Xinyuan Liu, Marci Chi Ma, Gary Ushaw, Richard Davison
分类: cs.AI
发布日期: 2026-01-09
备注: AAAI 2026 Oral
🔗 代码/项目: GITHUB
💡 一句话要点
提出TowerMind,一个轻量级、多模态的塔防游戏环境,用于评估LLM智能体。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM智能体 塔防游戏 多模态环境 强化学习 幻觉评估 决策规划 RTS游戏 基准测试
📋 核心要点
- 现有RTS游戏环境计算量大或缺乏文本支持,限制了LLM智能体的评估和研究。
- TowerMind是一个轻量级塔防环境,提供多模态输入,支持幻觉评估和高度定制化。
- 实验表明LLM在能力和幻觉方面与人类专家有差距,并揭示了LLM行为的局限性。
📝 摘要(中文)
本文提出TowerMind,一个基于塔防游戏的轻量级环境,用于评估大型语言模型(LLM)作为智能体的能力。现有基于即时战略(RTS)游戏的环境计算需求高或缺乏文本观测支持,限制了其在LLM评估中的应用。TowerMind保留了RTS游戏评估LLM的关键优势,同时具有低计算需求和多模态观测空间,包括像素、文本和结构化游戏状态表示。此外,TowerMind支持模型幻觉评估,并提供高度的定制性。论文设计了五个基准关卡,在不同的多模态输入设置下评估了多个广泛使用的LLM。结果表明,LLM在能力和幻觉方面与人类专家存在明显差距。实验进一步揭示了LLM行为的关键局限性,如规划验证不足、决策缺乏多重目标以及行动使用效率低下。论文还评估了两种经典的强化学习算法:Ape-X DQN和PPO。TowerMind通过轻量级和多模态设计,补充了现有的RTS游戏环境,并为AI智能体领域引入了一个新的基准。
🔬 方法详解
问题定义:现有基于RTS游戏的环境在评估LLM智能体时面临计算资源需求高和缺乏文本观测支持的问题。这使得研究人员难以充分利用RTS游戏作为评估LLM长期规划和决策能力的理想平台。此外,缺乏对LLM幻觉现象的有效评估也是一个重要的痛点。
核心思路:TowerMind的核心思路是利用塔防游戏(TD)作为RTS游戏的一个子集,简化游戏复杂性,降低计算需求,同时保留RTS游戏中长期规划和决策的关键要素。通过提供多模态的观测空间(像素、文本、结构化游戏状态),TowerMind旨在更全面地评估LLM智能体的能力,并支持对模型幻觉的评估。
技术框架:TowerMind环境包含以下主要模块:游戏引擎(负责游戏逻辑和渲染)、观测模块(负责生成多模态观测数据)、动作空间(定义智能体可以执行的动作)、评估模块(负责评估智能体的性能和幻觉)。整体流程是:智能体接收多模态观测,根据观测选择动作,游戏引擎执行动作并更新游戏状态,评估模块根据游戏状态评估智能体的性能,并将评估结果反馈给智能体。
关键创新:TowerMind的关键创新在于其轻量级的设计和多模态观测空间的提供。与传统的RTS游戏环境相比,TowerMind降低了计算需求,使得更多的研究人员可以使用该环境进行LLM智能体的评估。多模态观测空间允许研究人员探索不同输入模态对LLM智能体性能的影响,并支持对模型幻觉的评估。
关键设计:TowerMind的关键设计包括:1) 使用Unity引擎实现游戏环境,保证了跨平台兼容性和易用性;2) 提供像素、文本和结构化游戏状态三种观测模态,允许研究人员灵活选择输入模态;3) 设计了五个基准关卡,用于评估LLM智能体在不同难度下的性能;4) 实现了幻觉评估机制,通过检测智能体是否基于不存在的信息进行决策来评估其幻觉程度。
📊 实验亮点
实验结果表明,LLM在TowerMind环境中与人类专家相比存在明显的性能差距,尤其是在规划验证、多重目标决策和行动效率方面。例如,LLM在某些关卡上的得分远低于人类专家。此外,实验还发现LLM存在幻觉问题,即基于不存在的信息进行决策。Ape-X DQN和PPO等强化学习算法在TowerMind环境中的表现也优于LLM,表明LLM在策略学习方面仍有提升空间。
🎯 应用场景
TowerMind可应用于评估和改进LLM在复杂决策环境中的表现,例如机器人控制、资源管理和战略规划等领域。该环境能够帮助研究人员发现LLM的局限性,并开发更可靠、更高效的LLM智能体。此外,TowerMind的多模态输入和幻觉评估功能,有助于提高LLM在实际应用中的安全性和可信度。
📄 摘要(原文)
Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and decision-making emerging as core general-purpose capabilities for adapting to diverse scenarios and tasks. Real-time strategy (RTS) games serve as an ideal testbed for evaluating these two capabilities, as their inherent gameplay requires both macro-level strategic planning and micro-level tactical adaptation and action execution. Existing RTS game-based environments either suffer from relatively high computational demands or lack support for textual observations, which has constrained the use of RTS games for LLM evaluation. Motivated by this, we present TowerMind, a novel environment grounded in the tower defense (TD) subgenre of RTS games. TowerMind preserves the key evaluation strengths of RTS games for assessing LLMs, while featuring low computational demands and a multimodal observation space, including pixel-based, textual, and structured game-state representations. In addition, TowerMind supports the evaluation of model hallucination and provides a high degree of customizability. We design five benchmark levels to evaluate several widely used LLMs under different multimodal input settings. The results reveal a clear performance gap between LLMs and human experts across both capability and hallucination dimensions. The experiments further highlight key limitations in LLM behavior, such as inadequate planning validation, a lack of multifinality in decision-making, and inefficient action use. We also evaluate two classic reinforcement learning algorithms: Ape-X DQN and PPO. By offering a lightweight and multimodal design, TowerMind complements the existing RTS game-based environment landscape and introduces a new benchmark for the AI agent field. The source code is publicly available on GitHub(https://github.com/tb6147877/TowerMind).