Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports
作者: Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong
分类: cs.CV
发布日期: 2026-03-10
💡 一句话要点
提出CourtSI数据集与基准,评估并提升VLMs在体育场景中的空间智能
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 空间智能 视觉语言模型 体育场景 数据集构建 模型评估
📋 核心要点
- 现有VLMs在空间智能方面存在不足,尤其是在高强度运动和动态物体交互的体育场景中。
- 构建大规模体育场景空间智能数据集CourtSI,并提出相应的评估基准CourtSI-Bench,用于评估和提升VLMs的空间推理能力。
- 实验表明,现有VLMs在CourtSI-Bench上表现不佳,通过在CourtSI上微调Qwen3-VL-8B,性能显著提升,并具备良好的泛化能力。
📝 摘要(中文)
本文提出了CourtSI,这是首个针对体育场景的大规模空间智能数据集。CourtSI包含超过100万个问答对,涵盖羽毛球、网球和乒乓球等代表性网球运动,系统地覆盖了空间计数、距离测量、定位和关系推理。利用明确的球场几何结构作为度量锚点,开发了一种半自动数据引擎来重建体育场景,从而实现CourtSI的可扩展管理。此外,还引入了CourtSI-Bench,这是一个高质量的评估基准,包含3686个经过严格人工验证的问答对。在CourtSI-Bench上评估了25个专有和开源的VLMs,揭示了现有的人工智能性能差距以及现有空间智能基准的泛化能力有限。通过在CourtSI上微调Qwen3-VL-8B,CourtSI-Bench的准确率提高了23.5个百分点。改进后的模型还能有效地推广到基于类似但未见过的运动的评估集CourtSI-Ext,并展示了增强的空间感知评论生成能力。这些发现表明,CourtSI为推进VLMs在体育运动中的空间智能提供了一条可扩展的途径。
🔬 方法详解
问题定义:现有视觉语言模型(VLMs)在理解复杂空间关系,特别是体育运动场景中的空间智能方面存在局限性。现有空间智能基准数据集难以捕捉体育运动中高强度的人类运动和动态物体交互,导致VLMs在这些场景下的表现不佳。
核心思路:利用体育运动中球场几何结构的明确性作为度量锚点,构建大规模、高质量的体育场景空间智能数据集CourtSI。通过半自动数据引擎重建体育场景,并设计包含空间计数、距离测量、定位和关系推理等多种类型的问答对,从而全面评估和提升VLMs的空间智能。
技术框架:该研究的核心是构建CourtSI数据集和CourtSI-Bench评估基准。首先,收集包含羽毛球、网球和乒乓球等运动的视频数据。然后,利用半自动数据引擎,基于球场几何结构重建体育场景,并生成相应的问答对。最后,对生成的问答对进行人工验证,构建高质量的CourtSI-Bench评估基准。
关键创新:该研究的关键创新在于构建了首个针对体育场景的大规模空间智能数据集CourtSI,并提出了相应的评估基准CourtSI-Bench。与现有空间智能基准数据集相比,CourtSI更侧重于评估VLMs在高强度运动和动态物体交互场景下的空间推理能力。
关键设计:CourtSI数据集包含超过100万个问答对,涵盖空间计数、距离测量、定位和关系推理等多种类型。CourtSI-Bench评估基准包含3686个经过严格人工验证的问答对。在实验中,使用Qwen3-VL-8B模型在CourtSI数据集上进行微调,并使用CourtSI-Bench和CourtSI-Ext评估模型的性能。CourtSI-Ext是一个基于类似但未见过的运动的评估集,用于评估模型的泛化能力。
📊 实验亮点
在CourtSI-Bench上评估了25个VLMs,发现现有模型存在较大的人工智能性能差距。通过在CourtSI上微调Qwen3-VL-8B,CourtSI-Bench的准确率提高了23.5个百分点。微调后的模型在CourtSI-Ext上也表现出良好的泛化能力,并能生成增强的空间感知评论。
🎯 应用场景
该研究成果可应用于体育视频分析、智能体育训练、体育赛事解说等领域。通过提升VLMs在体育场景中的空间智能,可以实现对运动员动作的精准分析、战术的智能推荐以及赛事解说的自动化生成,从而提高体育行业的智能化水平。
📄 摘要(原文)
Sports have long attracted broad attention as they push the limits of human physical and cognitive capabilities. Amid growing interest in spatial intelligence for vision-language models (VLMs), sports provide a natural testbed for understanding high-intensity human motion and dynamic object interactions. To this end, we present CourtSI, the first large-scale spatial intelligence dataset tailored to sports scenarios. CourtSI contains over 1M QA pairs, organized under a holistic taxonomy that systematically covers spatial counting, distance measurement, localization, and relational reasoning, across representative net sports including badminton, tennis, and table tennis. Leveraging well-defined court geometry as metric anchors, we develop a semi-automatic data engine to reconstruct sports scenes, enabling scalable curation of CourtSI. In addition, we introduce CourtSI-Bench, a high-quality evaluation benchmark comprising 3,686 QA pairs with rigorous human verification. We evaluate 25 proprietary and open-source VLMs on CourtSI-Bench, revealing a remaining human-AI performance gap and limited generalization from existing spatial intelligence benchmarks. These findings indicate that sports scenarios expose limitations in spatial intelligence capabilities captured by existing benchmarks. Further, fine-tuning Qwen3-VL-8B on CourtSI improves accuracy on CourtSI-Bench by 23.5 percentage points. The adapted model also generalizes effectively to CourtSI-Ext, an evaluation set built on a similar but unseen sport, and demonstrates enhanced spatial-aware commentary generation. Together, these findings demonstrate that CourtSI provides a scalable pathway toward advancing spatial intelligence of VLMs in sports.