TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies?
作者: Zhongyuan Bao, Lejun Zhang
分类: cs.CV
发布日期: 2025-09-19 (更新: 2025-09-22)
💡 一句话要点
提出TennisTV基准以评估多模态大语言模型在网球视频理解中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 网球视频理解 基准评估 时间定位 帧采样密度 自动化问题生成 体育分析
📋 核心要点
- 现有的多模态大语言模型在快速运动视频理解中表现不足,尤其是在信息密集的网球回合片段中。
- 论文提出TennisTV基准,通过自动化流程建模网球回合并生成问题,系统评估MLLMs的理解能力。
- 实验结果显示,当前模型在网球视频理解上存在显著短板,强调了帧采样和时间定位的重要性。
📝 摘要(中文)
多模态大语言模型(MLLMs)在一般视频理解方面表现优异,但在快速、高频率的运动如网球中却面临挑战,尤其是短小而信息密集的回合片段。为系统性评估MLLMs在这一领域的能力,本文提出了TennisTV,这是首个也是最全面的网球视频理解基准。TennisTV将每个回合建模为连续击球事件的时间顺序序列,采用自动化流程进行过滤和问题生成,涵盖从击球级别到回合级别的9个任务,并包含2943个经过人工验证的问题。对17个代表性MLLMs的评估提供了网球视频理解的首次系统性评估,结果揭示了显著的不足,并得出两个关键见解:一是帧采样密度应根据任务进行调整和平衡,二是改善时间定位对增强推理能力至关重要。
🔬 方法详解
问题定义:本文旨在解决多模态大语言模型在网球视频理解中的不足,尤其是面对短小且信息密集的回合片段时的挑战。现有方法缺乏系统性的评估标准,导致无法全面了解模型的能力。
核心思路:论文的核心思路是构建TennisTV基准,通过将网球回合视为连续击球事件的时间序列,利用自动化流程生成问题,从而系统性地评估MLLMs在网球视频理解中的表现。
技术框架:整体架构包括数据收集、事件建模、问题生成和模型评估四个主要模块。首先,收集网球比赛视频并提取击球事件;其次,构建时间序列模型;然后,自动生成与这些事件相关的问题;最后,评估不同MLLMs在这些任务上的表现。
关键创新:最重要的技术创新在于TennisTV基准的构建,它不仅是首个专注于网球视频理解的基准,还涵盖了多种任务和大量人工验证的问题,提供了全面的评估框架。
关键设计:在设计中,论文强调了帧采样密度的调整和时间定位的优化,确保模型在不同任务中能够有效地进行推理和理解。
📊 实验亮点
实验结果显示,17个评估的MLLMs在网球视频理解任务上存在显著短板,尤其是在时间定位和帧采样方面。研究强调了根据任务需求调整帧采样密度的重要性,并指出改善时间定位对增强推理能力的关键作用。
🎯 应用场景
该研究的潜在应用领域包括体育分析、智能视频监控和教育培训等。通过提升多模态大语言模型在网球视频理解中的能力,可以为教练、运动员和分析师提供更精准的战术分析和决策支持,推动体育科技的发展。
📄 摘要(原文)
Multimodal large language models (MLLMs) excel at general video understanding but struggle with fast, high-frequency sports like tennis, where rally clips are short yet information-dense. To systematically evaluate MLLMs in this challenging domain, we present TennisTV, the first and most comprehensive benchmark for tennis video understanding. TennisTV models each rally as a temporal-ordered sequence of consecutive stroke events, using automated pipelines for filtering and question generation. It covers 9 tasks from the stroke level to the rally level and includes 2943 human-verified questions. Evaluating 17 representative MLLMs, we provide the first systematic assessment of tennis video understanding. Results reveal substantial shortcomings and yield two key insights: (i) frame-sampling density should be tailored and balanced across tasks, and (ii) improving temporal grounding is essential for stronger reasoning.