RacketVision: A Multiple Racket Sports Benchmark for Unified Ball and Racket Analysis

📄 arXiv: 2511.17045v2 📥 PDF

作者: Linfeng Dong, Yuchen Yang, Hao Wu, Wei Wang, Yuenan Hou, Zhihang Zhong, Xiao Sun

分类: cs.CV, cs.AI, cs.MM

发布日期: 2025-11-21 (更新: 2025-11-27)

备注: Accepted to AAAI 2026 (Oral)

🔗 代码/项目: GITHUB


💡 一句话要点

RacketVision:统一球和球拍分析的多球拍运动基准数据集

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 运动分析 计算机视觉 多模态融合 轨迹预测 球拍姿态估计

📋 核心要点

  1. 现有方法难以同时处理球类运动中球的精细追踪、球拍姿态估计和轨迹预测,缺乏统一的细粒度标注数据集。
  2. RacketVision数据集通过提供大规模的球和球拍姿态标注,结合CrossAttention机制,实现更准确的轨迹预测。
  3. 实验表明,简单拼接球拍特征会降低性能,而CrossAttention能有效融合多模态信息,提升轨迹预测精度,超越单模态基线。

📝 摘要(中文)

本文介绍RacketVision,这是一个新颖的数据集和基准,旨在推进运动分析中的计算机视觉技术,涵盖乒乓球、网球和羽毛球。该数据集首次提供大规模、细粒度的球拍姿态标注以及传统的球位置信息,从而能够研究复杂的人-物交互。它旨在解决三个相互关联的任务:细粒度的球跟踪、铰接球拍姿态估计和预测性球轨迹预测。我们对现有基线的评估揭示了一个关于多模态融合的关键见解:虽然简单地连接球拍姿态特征会降低性能,但CrossAttention机制对于释放它们的价值至关重要,从而产生优于强大的单模态基线的轨迹预测结果。RacketVision为动态对象跟踪、条件运动预测和运动中的多模态分析的未来研究提供了一个通用的资源和一个强大的起点。

🔬 方法详解

问题定义:论文旨在解决球类运动中,精确的球体追踪、球拍姿态估计以及球体轨迹预测问题。现有方法通常只关注球的运动,忽略了球拍姿态对运动轨迹的影响,并且缺乏大规模的、同时包含球和球拍精细标注的数据集,限制了相关研究的进展。

核心思路:论文的核心思路是构建一个包含球和球拍姿态信息的综合数据集,并利用CrossAttention机制有效融合这两种模态的信息,从而提升球体轨迹预测的准确性。通过关注人与物体的交互,更全面地理解运动过程。

技术框架:RacketVision数据集包含乒乓球、网球和羽毛球三种运动的视频数据,并对球和球拍进行了精细的标注。研究人员使用该数据集进行三个任务的评估:细粒度的球跟踪、铰接球拍姿态估计和预测性球轨迹预测。在轨迹预测任务中,采用了多模态融合框架,将球的位置信息和球拍姿态信息作为输入,通过CrossAttention机制进行融合。

关键创新:该论文的关键创新在于构建了RacketVision数据集,这是首个提供大规模、细粒度的球拍姿态标注以及球位置信息的数据集。此外,论文还发现,简单地拼接球拍姿态特征会降低性能,而CrossAttention机制对于释放它们的价值至关重要。

关键设计:在多模态融合框架中,CrossAttention机制被用于融合球的位置信息和球拍姿态信息。具体的网络结构和损失函数细节在论文中未详细说明,但强调了CrossAttention在有效利用球拍姿态信息方面的作用。数据集的标注精度和规模是关键设计之一,保证了模型训练的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在RacketVision数据集上,使用CrossAttention机制融合球和球拍姿态信息后,轨迹预测的性能显著提升,超越了仅使用球的位置信息的单模态基线。这验证了球拍姿态信息对于轨迹预测的重要性,以及CrossAttention机制在多模态融合中的有效性。具体的性能提升幅度未知。

🎯 应用场景

RacketVision数据集和相关研究成果可应用于运动分析、运动员训练辅助、虚拟体育游戏等领域。通过精确的球和球拍追踪以及轨迹预测,可以为运动员提供更科学的训练指导,提升运动表现。在虚拟体育游戏中,可以实现更逼真的运动模拟和人机交互。

📄 摘要(原文)

We introduce RacketVision, a novel dataset and benchmark for advancing computer vision in sports analytics, covering table tennis, tennis, and badminton. The dataset is the first to provide large-scale, fine-grained annotations for racket pose alongside traditional ball positions, enabling research into complex human-object interactions. It is designed to tackle three interconnected tasks: fine-grained ball tracking, articulated racket pose estimation, and predictive ball trajectory forecasting. Our evaluation of established baselines reveals a critical insight for multi-modal fusion: while naively concatenating racket pose features degrades performance, a CrossAttention mechanism is essential to unlock their value, leading to trajectory prediction results that surpass strong unimodal baselines. RacketVision provides a versatile resource and a strong starting point for future research in dynamic object tracking, conditional motion forecasting, and multimodal analysis in sports. Project page at https://github.com/OrcustD/RacketVision