Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case

📄 arXiv: 2409.12889v2 📥 PDF

作者: Peng Chen, Pi Bu, Jun Song, Yuan Gao, Bo Zheng

分类: cs.AI

发布日期: 2024-09-19 (更新: 2024-09-22)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出VARP框架,探索VLM在《黑神话:悟空》等ARPG游戏中视觉驱动的智能体控制能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 动作角色扮演游戏 智能体 《黑神话:悟空》 动作规划 视觉轨迹 多模态学习 游戏AI

📋 核心要点

  1. 现有基于LLM的游戏智能体依赖API,泛化性差且脱离人类玩家习惯,难以应对复杂动作游戏。
  2. 提出VARP框架,结合动作规划和视觉轨迹系统,仅通过视觉输入实现ARPG游戏智能体控制。
  3. 在《黑神话:悟空》中验证,VARP框架在简单和中等难度战斗场景中成功率达90%。

📝 摘要(中文)

本文研究了基于大型语言模型(LLM)的智能体在视频游戏中的应用,特别是在动作角色扮演游戏(ARPG)中的挑战。传统方法依赖游戏API,限制了泛化能力且不符合人类玩家的习惯。本文以《黑神话:悟空》为平台,探索了仅使用视觉输入和复杂动作输出的场景下,现有视觉语言模型(VLM)的能力边界。为此,定义了12个游戏任务,其中75%为战斗任务,并集成多个先进的VLM进行评估。同时,发布包含游戏视频和操作日志(包括鼠标和键盘动作)的人工操作数据集。此外,提出了一个新颖的VARP(Vision Action Role-Playing)智能体框架,包含动作规划系统和视觉轨迹系统。实验表明,该框架能够执行基本任务,并在90%的简单和中等难度战斗场景中取得成功。该研究旨在为多模态智能体在复杂动作游戏环境中的应用提供新的见解和方向。

🔬 方法详解

问题定义:现有基于LLM的游戏智能体,特别是应用于ARPG时,通常依赖于游戏API来获取环境和动作数据。这种方式的局限性在于,它严重依赖于API的可用性,并且无法模拟人类玩家仅通过视觉信息进行决策和操作的方式。此外,强化学习方法虽然在ARPG中应用广泛,但泛化能力较差,需要大量的训练数据。

核心思路:本文的核心思路是构建一个仅依赖视觉输入的智能体框架,使其能够像人类玩家一样,通过观察游戏画面来理解游戏状态并执行相应的动作。通过结合动作规划和视觉轨迹生成,使智能体能够更好地应对ARPG中复杂的动作和环境变化。

技术框架:VARP框架包含两个主要模块:动作规划系统和视觉轨迹系统。动作规划系统负责根据当前的游戏状态(通过视觉输入获取)制定下一步的动作计划。视觉轨迹系统则负责将动作计划转化为具体的动作序列,例如鼠标和键盘操作。整个框架通过循环执行这两个模块,实现智能体在游戏中的自主控制。

关键创新:该研究的关键创新在于提出了一个完全基于视觉输入的ARPG智能体框架,摆脱了对游戏API的依赖。此外,结合动作规划和视觉轨迹生成,使得智能体能够更好地理解游戏状态并执行复杂的动作序列。人工操作数据集的发布也为后续研究提供了宝贵的数据资源。

关键设计:动作规划系统可能采用了分层规划的策略,首先确定宏观的战术目标(例如,接近敌人、躲避攻击),然后将这些目标分解为更具体的动作指令(例如,移动到指定位置、释放特定技能)。视觉轨迹系统可能使用了模仿学习的方法,通过学习人类玩家的操作轨迹,生成更加自然和有效的动作序列。具体的损失函数和网络结构细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VARP框架在《黑神话:悟空》的实验中表现出色,能够在90%的简单和中等难度战斗场景中取得成功。这表明,基于视觉输入的智能体在复杂动作游戏环境中具有巨大的潜力。此外,该研究还发布了一个包含人类操作数据的游戏数据集,为后续研究提供了宝贵资源。虽然摘要中没有给出具体的性能数据对比,但VARP框架的成功率已经证明了其有效性。

🎯 应用场景

该研究成果可应用于游戏AI、机器人控制、自动驾驶等领域。在游戏AI方面,可以开发更智能、更逼真的游戏角色,提升游戏体验。在机器人控制方面,可以使机器人通过视觉信息理解环境并执行复杂任务。在自动驾驶领域,可以提高自动驾驶系统在复杂环境下的感知和决策能力。未来,该技术有望应用于虚拟现实、增强现实等领域。

📄 摘要(原文)

Recently, large language model (LLM)-based agents have made significant advances across various fields. One of the most popular research areas involves applying these agents to video games. Traditionally, these methods have relied on game APIs to access in-game environmental and action data. However, this approach is limited by the availability of APIs and does not reflect how humans play games. With the advent of vision language models (VLMs), agents now have enhanced visual understanding capabilities, enabling them to interact with games using only visual inputs. Despite these advances, current approaches still face challenges in action-oriented tasks, particularly in action role-playing games (ARPGs), where reinforcement learning methods are prevalent but suffer from poor generalization and require extensive training. To address these limitations, we select an ARPG, ``Black Myth: Wukong'', as a research platform to explore the capability boundaries of existing VLMs in scenarios requiring visual-only input and complex action output. We define 12 tasks within the game, with 75% focusing on combat, and incorporate several state-of-the-art VLMs into this benchmark. Additionally, we will release a human operation dataset containing recorded gameplay videos and operation logs, including mouse and keyboard actions. Moreover, we propose a novel VARP (Vision Action Role-Playing) agent framework, consisting of an action planning system and a visual trajectory system. Our framework demonstrates the ability to perform basic tasks and succeed in 90% of easy and medium-level combat scenarios. This research aims to provide new insights and directions for applying multimodal agents in complex action game environments. The code and datasets will be made available at https://varp-agent.github.io/.