PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

📄 arXiv: 2604.08340v1 📥 PDF

作者: Ruizhi Zhang, Ye Huang, Yuangang Pan, Chuanfu Shen, Zhilin Liu, Ting Xie, Wen Li, Lixin Duan

分类: cs.CV, cs.AI

发布日期: 2026-04-09

备注: Tech report


💡 一句话要点

PokeGym:一个视觉驱动的、面向视觉-语言模型长程任务的评测基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 具身智能 长程任务 评测基准 3D环境

📋 核心要点

  1. 现有VLM基准测试在交互性、3D环境复杂性、视觉信息纯粹性以及评估可扩展性方面存在不足。
  2. PokeGym通过在《宝可梦传说Z-A》中构建任务,并采用严格的代码隔离和自动评估,解决了上述问题。
  3. 实验表明,物理死锁恢复是当前VLM的主要瓶颈,且不同能力的模型表现出不同的死锁类型。

📝 摘要(中文)

视觉-语言模型(VLM)在静态视觉理解方面取得了显著进展,但其在复杂3D具身环境中的部署仍然受到严重限制。现有基准存在四个关键缺陷:(1)被动感知任务规避了交互动态;(2)简化的2D环境无法评估深度感知;(3)特权状态泄露绕过了真正的视觉处理;(4)人工评估成本过高且无法扩展。我们推出了PokeGym,这是一个视觉驱动的长程基准,在视觉复杂的3D开放世界角色扮演游戏《宝可梦传说Z-A》中实例化。PokeGym强制执行严格的代码级隔离:智能体仅在原始RGB观测上运行,而独立的评估器通过内存扫描验证成功,确保纯粹的基于视觉的决策和自动化的、可扩展的评估。该基准包括30个任务(30-220步),涵盖导航、交互和混合场景,具有三种指令粒度(视觉引导、步骤引导、仅目标),以系统地解构视觉基础、语义推理和自主探索能力。我们的评估揭示了当前VLM的一个关键限制:物理死锁恢复,而不是高层次的规划,构成了主要的瓶颈,死锁与任务成功率呈强烈的负相关。此外,我们发现了一种元认知差异:较弱的模型主要遭受无意识死锁(对陷阱一无所知),而高级模型则表现出有意识死锁(认识到陷阱但无法恢复)。这些发现强调了将显式空间直觉集成到VLM架构中的必要性。代码和基准将在GitHub上提供。

🔬 方法详解

问题定义:现有视觉-语言模型在复杂3D具身环境中表现不佳,现有评测基准存在交互性不足、环境过于简化、依赖特权信息以及人工评估成本高等问题。这些问题阻碍了VLM在真实世界场景中的应用。

核心思路:PokeGym的核心思路是构建一个视觉驱动的、长程任务的评测基准,该基准基于一个视觉复杂的3D开放世界游戏环境,并采用严格的代码隔离和自动评估机制。通过这种方式,可以更真实地评估VLM在复杂环境中的视觉感知、语义理解和决策能力。

技术框架:PokeGym的技术框架主要包括以下几个部分: 1. 游戏环境:《宝可梦传说Z-A》,提供视觉复杂的3D开放世界。 2. 任务定义:30个任务,涵盖导航、交互和混合场景,任务长度从30步到220步不等。 3. 指令粒度:三种指令粒度,包括视觉引导、步骤引导和仅目标,用于评估不同层次的视觉基础、语义推理和自主探索能力。 4. 代码隔离:智能体只能访问原始RGB图像,禁止访问任何特权信息。 5. 自动评估:通过内存扫描验证任务完成情况,实现自动化的、可扩展的评估。

关键创新:PokeGym的关键创新在于: 1. 视觉驱动:智能体完全依赖视觉信息进行决策,避免了特权信息泄露。 2. 长程任务:任务长度较长,需要智能体进行长时间的规划和决策。 3. 自动评估:采用内存扫描技术进行自动评估,提高了评估效率和可扩展性。 4. 死锁分析:对智能体在任务中遇到的死锁情况进行分析,揭示了VLM在物理推理方面的不足。

关键设计:PokeGym的关键设计包括: 1. 任务多样性:30个任务涵盖了不同的场景和目标,可以全面评估VLM的能力。 2. 指令粒度:三种指令粒度可以评估VLM在不同层次的视觉基础、语义推理和自主探索能力。 3. 死锁分析指标:定义了无意识死锁和有意识死锁两种类型,用于分析VLM在死锁情况下的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前VLM在PokeGym上的表现仍然有限,物理死锁恢复是主要瓶颈。研究发现,较弱的模型更容易陷入无意识死锁,而较强的模型则会陷入有意识死锁,但无法有效恢复。这些发现表明,需要将显式的空间直觉融入到VLM架构中,以提高其在复杂环境中的表现。

🎯 应用场景

PokeGym可用于评估和提升视觉-语言模型在复杂3D环境中的感知、推理和决策能力。该基准的潜在应用领域包括机器人导航、自动驾驶、游戏AI等,有助于开发更智能、更可靠的具身智能体,使其能够在真实世界中执行复杂任务。

📄 摘要(原文)

While Vision-Language Models (VLMs) have achieved remarkable progress in static visual understanding, their deployment in complex 3D embodied environments remains severely limited. Existing benchmarks suffer from four critical deficiencies: (1) passive perception tasks circumvent interactive dynamics; (2) simplified 2D environments fail to assess depth perception; (3) privileged state leakage bypasses genuine visual processing; and (4) human evaluation is prohibitively expensive and unscalable. We introduce PokeGym, a visually-driven long-horizon benchmark instantiated within Pokemon Legends: Z-A, a visually complex 3D open-world Role-Playing Game. PokeGym enforces strict code-level isolation: agents operate solely on raw RGB observations while an independent evaluator verifies success via memory scanning, ensuring pure vision-based decision-making and automated, scalable assessment. The benchmark comprises 30 tasks (30-220 steps) spanning navigation, interaction, and mixed scenarios, with three instruction granularities (Visual-Guided, Step-Guided, Goal-Only) to systematically deconstruct visual grounding, semantic reasoning, and autonomous exploration capabilities. Our evaluation reveals a key limitation of current VLMs: physical deadlock recovery, rather than high-level planning, constitutes the primary bottleneck, with deadlocks showing a strong negative correlation with task success. Furthermore, we uncover a metacognitive divergence: weaker models predominantly suffer from Unaware Deadlocks (oblivious to entrapment), whereas advanced models exhibit Aware Deadlocks (recognizing entrapment yet failing to recover). These findings highlight the need to integrate explicit spatial intuition into VLM architectures. The code and benchmark will be available on GitHub.