TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies?

作者: Zhongyuan Bao, Lejun Zhang

分类: cs.CV

发布日期: 2025-09-19 (更新: 2025-09-22)

💡 一句话要点

提出TennisTV基准以评估多模态大语言模型在网球视频理解中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 网球视频理解 基准评估 时间定位 帧采样密度 自动化问题生成 体育分析

📋 核心要点

现有的多模态大语言模型在快速运动视频理解中表现不足，尤其是在信息密集的网球回合片段中。
论文提出TennisTV基准，通过自动化流程建模网球回合并生成问题，系统评估MLLMs的理解能力。
实验结果显示，当前模型在网球视频理解上存在显著短板，强调了帧采样和时间定位的重要性。

📝 摘要（中文）

多模态大语言模型（MLLMs）在一般视频理解方面表现优异，但在快速、高频率的运动如网球中却面临挑战，尤其是短小而信息密集的回合片段。为系统性评估MLLMs在这一领域的能力，本文提出了TennisTV，这是首个也是最全面的网球视频理解基准。TennisTV将每个回合建模为连续击球事件的时间顺序序列，采用自动化流程进行过滤和问题生成，涵盖从击球级别到回合级别的9个任务，并包含2943个经过人工验证的问题。对17个代表性MLLMs的评估提供了网球视频理解的首次系统性评估，结果揭示了显著的不足，并得出两个关键见解：一是帧采样密度应根据任务进行调整和平衡，二是改善时间定位对增强推理能力至关重要。

🔬 方法详解

问题定义：本文旨在解决多模态大语言模型在网球视频理解中的不足，尤其是面对短小且信息密集的回合片段时的挑战。现有方法缺乏系统性的评估标准，导致无法全面了解模型的能力。

核心思路：论文的核心思路是构建TennisTV基准，通过将网球回合视为连续击球事件的时间序列，利用自动化流程生成问题，从而系统性地评估MLLMs在网球视频理解中的表现。

技术框架：整体架构包括数据收集、事件建模、问题生成和模型评估四个主要模块。首先，收集网球比赛视频并提取击球事件；其次，构建时间序列模型；然后，自动生成与这些事件相关的问题；最后，评估不同MLLMs在这些任务上的表现。

关键创新：最重要的技术创新在于TennisTV基准的构建，它不仅是首个专注于网球视频理解的基准，还涵盖了多种任务和大量人工验证的问题，提供了全面的评估框架。

关键设计：在设计中，论文强调了帧采样密度的调整和时间定位的优化，确保模型在不同任务中能够有效地进行推理和理解。

📊 实验亮点

实验结果显示，17个评估的MLLMs在网球视频理解任务上存在显著短板，尤其是在时间定位和帧采样方面。研究强调了根据任务需求调整帧采样密度的重要性，并指出改善时间定位对增强推理能力的关键作用。

🎯 应用场景

该研究的潜在应用领域包括体育分析、智能视频监控和教育培训等。通过提升多模态大语言模型在网球视频理解中的能力，可以为教练、运动员和分析师提供更精准的战术分析和决策支持，推动体育科技的发展。

📄 摘要（原文）

Multimodal large language models (MLLMs) excel at general video understanding but struggle with fast, high-frequency sports like tennis, where rally clips are short yet information-dense. To systematically evaluate MLLMs in this challenging domain, we present TennisTV, the first and most comprehensive benchmark for tennis video understanding. TennisTV models each rally as a temporal-ordered sequence of consecutive stroke events, using automated pipelines for filtering and question generation. It covers 9 tasks from the stroke level to the rally level and includes 2943 human-verified questions. Evaluating 17 representative MLLMs, we provide the first systematic assessment of tennis video understanding. Results reveal substantial shortcomings and yield two key insights: (i) frame-sampling density should be tailored and balanced across tasks, and (ii) improving temporal grounding is essential for stronger reasoning.

TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册