SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models
作者: Haotian Xia, Zhengbang Yang, Junbo Zou, Rhys Tracy, Yuqing Wang, Chi Lu, Christopher Lai, Yanjun He, Xun Shao, Zhuoqing Xie, Yuan-fang Wang, Weining Shen, Hanjie Chen
分类: cs.CV, cs.CL
发布日期: 2024-10-11 (更新: 2025-03-14)
备注: ICLR 2025 Poster
💡 一句话要点
SPORTU:一个用于评估多模态大语言模型在体育理解能力上的综合基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大语言模型 体育理解 基准测试 视频分析 规则推理 知识推理
📋 核心要点
- 现有MLLM在复杂体育场景推理中面临挑战,缺乏全面评估其能力的基准。
- SPORTU基准包含文本和视频两部分,旨在多层次评估MLLM的体育理解和推理能力。
- 实验结果表明,现有模型在深度推理和规则理解方面存在不足,有较大提升空间。
📝 摘要(中文)
本文提出了SPORTU,一个用于评估多模态大语言模型(MLLMs)在多层次体育推理任务中能力的基准。SPORTU包含两个关键部分:SPORTU-text,包含900个多项选择题,并由人工标注了解释,用于规则理解和策略理解,侧重于测试模型仅通过问答进行体育推理的能力,无需视觉输入;SPORTU-video,包含7种不同运动的1701个慢动作视频片段和12048个问答对,旨在评估从简单运动识别到复杂任务(如犯规检测和规则应用)的多层次推理。在SPORTU-text上,使用少量样本学习和思维链(CoT)提示评估了四个流行的LLM,GPT-4o取得了71%的最高准确率,但仍低于人类水平,表明在规则理解和推理方面仍有改进空间。SPORTU-video的评估包括7个专有和6个开源MLLM。实验表明,模型在需要深度推理和基于规则理解的困难任务上表现不佳。Claude-3.5-Sonnet在困难任务上表现最佳,但准确率仅为52.6%,表明仍有很大的改进空间。希望SPORTU能成为评估模型在体育理解和推理能力方面的重要一步。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型在体育理解和推理方面的能力评估问题。现有方法缺乏一个综合性的基准,无法全面评估模型在不同层次的体育知识和推理能力,尤其是在规则理解、策略分析和复杂场景理解方面。
核心思路:论文的核心思路是构建一个包含文本和视频数据的综合性基准SPORTU,该基准覆盖了从简单运动识别到复杂规则应用的多个层次的推理任务。通过设计不同类型的问答对,并结合人工标注的解释,可以更全面地评估模型在体育领域的理解和推理能力。
技术框架:SPORTU基准包含两个主要组成部分:SPORTU-text和SPORTU-video。SPORTU-text包含900个多项选择题,侧重于测试模型仅通过文本进行体育推理的能力。SPORTU-video包含1701个慢动作视频片段和12048个问答对,旨在评估模型在多层次推理任务中的表现。评估过程中,采用少量样本学习和思维链(CoT)提示等技术来提高模型的性能。
关键创新:SPORTU基准的关键创新在于其综合性和多层次性。它不仅包含文本数据,还包含视频数据,可以更全面地评估模型在体育领域的理解和推理能力。此外,SPORTU基准还覆盖了从简单运动识别到复杂规则应用的多个层次的推理任务,可以更细粒度地评估模型的性能。
关键设计:SPORTU-text中的问题设计涵盖了规则理解和策略理解两个方面,并提供了人工标注的解释,有助于分析模型的推理过程。SPORTU-video中的视频片段选择了7种不同的运动,并针对每个视频片段设计了多个问答对,涵盖了不同层次的推理任务。在评估过程中,采用了少量样本学习和思维链(CoT)提示等技术来提高模型的性能。
🖼️ 关键图片
📊 实验亮点
在SPORTU-text上,GPT-4o取得了71%的最高准确率,但仍低于人类水平。在SPORTU-video的困难任务上,Claude-3.5-Sonnet表现最佳,但准确率仅为52.6%。这些结果表明,现有模型在深度推理和规则理解方面仍有很大的改进空间。
🎯 应用场景
SPORTU基准可用于评估和提升多模态大语言模型在体育领域的应用能力,例如智能体育解说、运动员训练辅助、体育赛事分析等。该基准的构建有助于推动人工智能在体育领域的应用,并为相关研究提供参考。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) are advancing the ability to reason about complex sports scenarios by integrating textual and visual information. To comprehensively evaluate their capabilities, we introduce SPORTU, a benchmark designed to assess MLLMs across multi-level sports reasoning tasks. SPORTU comprises two key components: SPORTU-text, featuring 900 multiple-choice questions with human-annotated explanations for rule comprehension and strategy understanding. This component focuses on testing models' ability to reason about sports solely through question-answering (QA), without requiring visual inputs; SPORTU-video, consisting of 1,701 slow-motion video clips across 7 different sports and 12,048 QA pairs, designed to assess multi-level reasoning, from simple sports recognition to complex tasks like foul detection and rule application. We evaluate four prevalent LLMs mainly utilizing few-shot learning paradigms supplemented by chain-of-thought (CoT) prompting on the SPORTU-text part. We evaluate four LLMs using few-shot learning and chain-of-thought (CoT) prompting on SPORTU-text. GPT-4o achieves the highest accuracy of 71%, but still falls short of human-level performance, highlighting room for improvement in rule comprehension and reasoning. The evaluation for the SPORTU-video part includes 7 proprietary and 6 open-source MLLMs. Experiments show that models fall short on hard tasks that require deep reasoning and rule-based understanding. Claude-3.5-Sonnet performs the best with only 52.6% accuracy on the hard task, showing large room for improvement. We hope that SPORTU will serve as a critical step toward evaluating models' capabilities in sports understanding and reasoning.