EgoEsportsQA: An Egocentric Video Benchmark for Perception and Reasoning in Esports
作者: Jianzhe Ma, Zhonghao Cao, Shangkui Chen, Yichen Xu, Wenxuan Wang, Qin Jin
分类: cs.CV, cs.AI, cs.MM
发布日期: 2026-04-14
备注: Work in progress
💡 一句话要点
EgoEsportsQA:提出电子竞技第一视角视频问答基准,用于评估感知与推理能力。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 电子竞技 视频问答 第一视角视频 视频大语言模型 感知与推理 基准数据集 认知能力 虚拟环境
📋 核心要点
- 现有Video-LLM在理解快节奏、信息密集的虚拟环境,特别是电子竞技场景方面存在不足。
- EgoEsportsQA基准通过构建高质量的电子竞技视频问答对,来评估模型在感知和推理方面的能力。
- 实验表明,现有Video-LLM在战术推理和微观操作理解方面存在明显差距,性能有待提升。
📝 摘要(中文)
本文提出了EgoEsportsQA,一个开创性的视频问答基准,旨在评估视频大语言模型(Video-LLMs)在快节奏、信息密集的虚拟环境中的感知和推理能力,特别是针对专家级电子竞技知识的理解。该基准包含从三个第一人称射击游戏的职业比赛中收集的1745个高质量问答对,并通过一个可扩展的六阶段流程进行整理。这些问题被构建成一个二维解耦的分类法:认知能力维度包含11个子任务(涵盖感知和推理级别),电子竞技知识维度包含6个子任务。对现有Video-LLM的全面评估表明,当前模型仍未达到令人满意的性能,最佳模型仅达到71.58%。结果揭示了模型在基本视觉感知方面比深度战术推理更强,并且对宏观进展的掌握优于对微观操作的掌握。消融实验进一步证明了当前Video-LLM架构的内在弱点。该数据集不仅揭示了现实世界和虚拟第一视角领域之间的联系,而且为优化下游电子竞技应用提供了指导。
🔬 方法详解
问题定义:现有视频大语言模型在理解真实世界的第一视角视频方面表现出色,但在高速度、信息密集的虚拟环境(如电子竞技)中的表现仍有待探索。现有基准测试主要关注日常活动,缺乏对虚拟场景中快速、规则约束推理的严格测试。因此,需要一个专门的基准来评估模型在电子竞技领域的感知和推理能力。
核心思路:本文的核心思路是构建一个高质量的电子竞技视频问答数据集,该数据集能够系统性地评估模型在不同认知能力和电子竞技知识方面的表现。通过对专业比赛视频进行标注,并设计具有挑战性的问题,可以有效地衡量模型对游戏规则、战术策略和微观操作的理解程度。
技术框架:EgoEsportsQA的构建流程包含六个主要阶段:1) 视频选择:从专业的电子竞技比赛中选择合适的视频片段。2) 问题生成:根据视频内容生成相关的问题。3) 答案标注:为每个问题提供准确的答案。4) 问题分类:将问题按照认知能力和电子竞技知识进行分类。5) 数据清洗:检查并修正错误或不一致的标注。6) 数据集发布:将整理好的数据集公开发布。数据集的问题被组织成一个二维解耦的分类法,包含11个认知能力子任务和6个电子竞技知识子任务。
关键创新:该论文的关键创新在于提出了一个专门针对电子竞技场景的视频问答基准。与现有基准相比,EgoEsportsQA更加关注模型在快节奏、信息密集环境下的感知和推理能力,并且涵盖了丰富的电子竞技知识。此外,该数据集的构建流程具有可扩展性,可以方便地扩展到其他电子竞技游戏或虚拟环境。
关键设计:在问题生成阶段,设计了多种类型的问题,包括描述性问题、推理性问题和预测性问题,以全面评估模型的认知能力。在答案标注阶段,采用了多轮标注和专家审核的方式,以保证答案的准确性。在问题分类阶段,定义了清晰的分类标准,并邀请了电子竞技专家进行评审,以确保分类的合理性。
🖼️ 关键图片
📊 实验亮点
对现有Video-LLM的评估结果表明,最佳模型在EgoEsportsQA上的准确率仅为71.58%,表明模型在深度战术推理和微观操作理解方面存在明显差距。模型在基本视觉感知方面表现较好,但在理解复杂战术和预测游戏走向方面仍有提升空间。消融实验进一步验证了现有Video-LLM架构的局限性。
🎯 应用场景
EgoEsportsQA数据集可用于训练和评估视频大语言模型在电子竞技领域的应用,例如智能教练、赛事解说、游戏AI等。该数据集还可以促进对现实世界和虚拟第一视角领域之间联系的研究,并为优化下游电子竞技应用提供指导,从而推动Video-LLM在各种第一视角环境中的发展。
📄 摘要(原文)
While video large language models (Video-LLMs) excel in understanding slow-paced, real-world egocentric videos, their capabilities in high-velocity, information-dense virtual environments remain under-explored. Existing benchmarks focus on daily activities, yet lack a rigorous testbed for evaluating fast, rule-bound reasoning in virtual scenarios. To fill this gap, we introduce EgoEsportsQA, a pioneering video question-answering (QA) benchmark for grounding perception and reasoning in expert esports knowledge. We curate 1,745 high-quality QA pairs from professional matches across 3 first-person shooter games via a scalable six-stage pipeline. These questions are structured into a two-dimensional decoupled taxonomy: 11 sub-tasks in the cognitive capability dimension (covering perception and reasoning levels) and 6 sub-tasks in the esports knowledge dimension. Comprehensive evaluations of state-of-the-art Video-LLMs reveal that current models still fail to achieve satisfactory performance, with the best model only 71.58%. The results expose notable gaps across both axes: models exhibit stronger capabilities in basic visual perception than in deep tactical reasoning, and they grasp overall macro-progression better than fine-grained micro-operations. Extensive ablation experiments demonstrate the intrinsic weaknesses of current Video-LLM architectures. Further analysis suggests that our dataset not only reveals the connections between real-world and virtual egocentric domains, but also offers guidance for optimizing downstream esports applications, thereby fostering the future advancement of Video-LLMs in various egocentric environments.