StarBench: A Turn-Based RPG Benchmark for Agentic Multimodal Decision-Making and Information Seeking

📄 arXiv: 2510.18483v1 📥 PDF

作者: Haoran Zhang, Chenhao Zhu, Sicong Guo, Hanzhe Guo, Haiming Li, Donglin Yu

分类: cs.AI

发布日期: 2025-10-21


💡 一句话要点

StarBench:一个用于智能体多模态决策与信息寻求的回合制RPG基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态决策 信息寻求 视觉-语言模型 强化学习 游戏AI

📋 核心要点

  1. 现有VLM在复杂游戏环境中,从原始像素到连贯动作的映射,以及何时寻求指导方面仍面临挑战。
  2. StarBench通过提供回合制RPG环境,评估智能体在多模态决策和主动信息寻求方面的能力。
  3. 实验结果揭示了现有VLM在直接控制模式下的不足,并验证了信息寻求对性能提升的积极作用。

📝 摘要(中文)

本文提出了StarBench,一个基于《崩坏:星穹铁道》的回合制RPG基准,旨在评估视觉-语言模型(VLMs)在多模态决策和智能体信息寻求方面的能力。StarBench标准化了八个战斗任务的评估,并包含两种模式:(i)直接控制,智能体仅接收屏幕截图,必须输出低级操作原语(点击和按键),不提供语义提示;(ii)工具辅助控制,高级意图可以通过检测器映射到原语,OCR输出提供可选的文本化观察以简化UI理解。StarBench还包含一个“提问或行动”诊断,用于衡量智能体在行动前选择请求指导的意愿和时机,以及该选择对后续性能的影响。论文报告了现有VLMs的基线性能和人类参考。结果表明,在直接控制模式下,感知到控制的保真度存在显著差距,而明智的信息寻求与性能提升相关,这确立了StarBench作为真实客户端游戏中智能体信息寻求和多模态决策的可复现评估标准。

🔬 方法详解

问题定义:现有方法在真实游戏客户端中,智能体难以将屏幕上的视觉信息转化为精确的键盘鼠标操作,并且缺乏在遇到困难时主动寻求信息的能力。这限制了VLM在复杂交互环境中的应用。

核心思路:论文的核心思路是构建一个标准化的、可控的回合制RPG环境,允许研究人员系统地评估智能体在多模态决策和信息寻求方面的能力。通过提供不同的控制模式(直接控制和工具辅助控制)以及“提问或行动”诊断,可以更细粒度地分析智能体的行为。

技术框架:StarBench包含以下主要组成部分:1) 基于《崩坏:星穹铁道》构建的回合制RPG环境;2) 八个标准化的战斗任务;3) 两种控制模式(直接控制和工具辅助控制);4) “提问或行动”诊断机制;5) 评估指标,用于衡量智能体的性能和信息寻求行为。整体流程是智能体接收游戏画面,根据当前状态做出决策(行动或提问),执行动作,并根据结果更新状态,直到完成任务或失败。

关键创新:StarBench的关键创新在于其对智能体信息寻求能力的显式评估。传统的游戏AI基准通常只关注智能体的决策和控制能力,而忽略了智能体在遇到困难时主动寻求信息的重要性。StarBench通过“提问或行动”诊断,鼓励智能体在必要时寻求指导,从而更真实地模拟人类玩家的行为。

关键设计:StarBench的关键设计包括:1) 回合制游戏机制,简化了环境的复杂性,便于控制和评估;2) 两种控制模式,允许研究人员分别评估智能体的感知和控制能力;3) “提问或行动”诊断,鼓励智能体在必要时寻求指导;4) 标准化的评估指标,用于衡量智能体的性能和信息寻求行为。具体的参数设置、损失函数和网络结构取决于所使用的VLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有VLM在直接控制模式下,感知到控制的保真度存在显著差距。同时,明智的信息寻求与性能提升显著相关,这验证了StarBench作为评估智能体信息寻求能力有效性的基准。

🎯 应用场景

StarBench的研究成果可应用于开发更智能、更自主的游戏AI,以及其他需要多模态决策和信息寻求能力的智能体系统,例如智能客服、自动驾驶和机器人助手。通过提高智能体在复杂环境中的适应性和问题解决能力,可以实现更高效、更人性化的交互体验。

📄 摘要(原文)

Human players do more than press buttons: they ground what they see on screen into precise keyboard-mouse actions and, when stuck, they seek information before trying again. We ask whether current vision-language models (VLMs) can do the same. Despite encouraging results under simplified control or tool scaffolds, human-like play in a real client - mapping raw screenshots to temporally coherent low-level actions while deciding when to ask for guidance - remains an open challenge. We introduce StarBench, a turn-based RPG benchmark derived from Honkai: Star Rail that targets these two human-like competencies: multimodal decision-making from pixels to actions and agentic information seeking. StarBench standardizes evaluation across eight combat tasks and two regimes with shared tasks and metrics: (i) direct control, where agents receive only screenshots and must emit low-level primitives (click and keypress) with no semantic hints; and (ii) tool-assisted control, where higher-level intents can be mapped to primitives by detectors and OCR outputs provide optional textualized observations to ease UI grounding. To mirror human practice, StarBench also includes an ask-or-act diagnostic that measures whether and when agents choose to request brief guidance before proceeding, and how that choice affects subsequent performance. We report reference baselines for contemporary VLMs and a human reference. Results expose sizable gaps in perception-to-control fidelity in the direct regime, while showing that judicious information seeking correlates with improved success, establishing StarBench as a reproducible yardstick for agentic information seeking and multimodal decision-making in real-client play.