GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

作者: Yunzhe Wang, Runhui Xu, Kexin Zheng, Tianyi Zhang, Jayavibhav Niranjan Kogundi, Soham Hans, Volkan Ustun

分类: cs.CL, cs.AI, cs.CV

发布日期: 2026-03-25

💡 一句话要点

GameplayQA：提出用于评估3D虚拟智能体决策密集型第一视角多视频理解的基准框架。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视频理解 具身智能 智能体感知 基准测试 3D游戏 多智能体

📋 核心要点

现有基准测试在评估3D环境中智能体感知快速状态变化、动作归因和多智能体行为推理能力方面存在不足。
GameplayQA框架通过密集标注的多人3D游戏视频，构建以智能体为中心的感知和推理评估体系。
实验表明，现有前沿多模态大语言模型在时间 grounding、角色归因和决策密度处理方面与人类表现存在显著差距。

📝 摘要（中文）

多模态大型语言模型（MLLM）越来越多地被部署为3D环境中自主智能体的感知骨干，应用范围从机器人到虚拟世界。这些应用要求智能体能够感知快速的状态变化，将动作归因于正确的实体，并从第一人称视角推理并发的多智能体行为，而现有基准无法充分评估这些能力。我们引入GameplayQA，这是一个通过视频理解评估以智能体为中心的感知和推理的框架。具体来说，我们以1.22个标签/秒的密度注释多人3D游戏视频，使用时间同步的并发字幕描述状态、动作和事件，这些字幕围绕着自我、其他智能体和世界的三元系统构建，这是多智能体环境的自然分解。从这些注释中，我们提炼了2.4K个诊断性QA对，这些QA对被组织成三个认知复杂性级别，并附带一个结构化的干扰因素分类法，可以对模型产生幻觉的位置进行细粒度分析。对前沿MLLM的评估揭示了与人类表现的巨大差距，常见的失败包括时间和跨视频的 grounding、智能体角色归因以及处理游戏的决策密度。我们希望GameplayQA能够激发具身智能、智能体感知和世界建模交叉领域的未来研究。

🔬 方法详解

问题定义：现有基准测试无法充分评估3D环境中智能体感知快速状态变化、将动作归因于正确的实体，以及从第一人称视角推理并发的多智能体行为的能力。这限制了多模态大语言模型在具身智能和虚拟世界中的应用。

核心思路：通过构建一个专门针对多人3D游戏场景的基准数据集，并设计相应的评估指标，来更全面地测试多模态大语言模型在智能体感知和推理方面的能力。该数据集围绕“自我”、“其他智能体”和“世界”的三元系统进行标注，以模拟多智能体环境的复杂性。

技术框架：GameplayQA框架包含以下几个主要组成部分：1) 多人3D游戏视频数据集，包含密集的时间同步标注，标注内容包括状态、动作和事件；2) 基于三元系统的标注结构，将环境分解为“自我”、“其他智能体”和“世界”；3) 诊断性QA对，用于评估模型的认知复杂性；4) 结构化的干扰因素分类法，用于分析模型产生幻觉的原因。

关键创新：GameplayQA的关键创新在于其以智能体为中心的视角和对决策密度的关注。与传统的视频理解基准不同，GameplayQA侧重于评估模型从第一人称视角理解和推理多智能体交互的能力。此外，该框架还引入了结构化的干扰因素分类法，可以对模型产生幻觉的原因进行细粒度分析。

关键设计：GameplayQA使用1.22个标签/秒的密度对多人3D游戏视频进行标注，确保能够捕捉到快速的状态变化。标注围绕“自我”、“其他智能体”和“世界”的三元系统构建，并使用时间同步的并发字幕描述状态、动作和事件。此外，该框架还设计了2.4K个诊断性QA对，这些QA对被组织成三个认知复杂性级别，以评估模型的推理能力。

🖼️ 关键图片

📊 实验亮点

对前沿多模态大语言模型的评估表明，它们在GameplayQA基准上与人类表现存在显著差距。常见的失败包括时间 grounding、跨视频 grounding、智能体角色归因以及处理游戏的决策密度。这些结果表明，现有模型在理解和推理复杂的多智能体交互方面仍有很大的提升空间。

🎯 应用场景

GameplayQA框架可用于评估和改进多模态大语言模型在具身智能、机器人、虚拟现实和游戏等领域的应用。通过提供更全面的评估指标和更具挑战性的测试场景，GameplayQA可以促进相关领域的研究进展，并推动开发更智能、更可靠的自主智能体。

📄 摘要（原文）

Multimodal LLMs are increasingly deployed as perceptual backbones for autonomous agents in 3D environments, from robotics to virtual worlds. These applications require agents to perceive rapid state changes, attribute actions to the correct entities, and reason about concurrent multi-agent behaviors from a first-person perspective, capabilities that existing benchmarks do not adequately evaluate. We introduce GameplayQA, a framework for evaluating agentic-centric perception and reasoning through video understanding. Specifically, we densely annotate multiplayer 3D gameplay videos at 1.22 labels/second, with time-synced, concurrent captions of states, actions, and events structured around a triadic system of Self, Other Agents, and the World, a natural decomposition for multi-agent environments. From these annotations, we refined 2.4K diagnostic QA pairs organized into three levels of cognitive complexity, accompanied by a structured distractor taxonomy that enables fine-grained analysis of where models hallucinate. Evaluation of frontier MLLMs reveals a substantial gap from human performance, with common failures in temporal and cross-video grounding, agent-role attribution, and handling the decision density of the game. We hope GameplayQA stimulates future research at the intersection of embodied AI, agentic perception, and world modeling.

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理