BasketLiDAR: The First LiDAR-Camera Multimodal Dataset for Professional Basketball MOT

📄 arXiv: 2508.15299v1 📥 PDF

作者: Ryunosuke Hayashi, Kohei Torimi, Rokuto Nagata, Kazuma Ikeda, Ozora Sako, Taichi Nakamura, Masaki Tani, Yoshimitsu Aoki, Kentaro Yoshioka

分类: cs.CV

发布日期: 2025-08-21

备注: Accepted to MMSports


💡 一句话要点

BasketLiDAR:首个篮球多目标跟踪LiDAR-相机多模态数据集与实时跟踪框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多目标跟踪 LiDAR 多模态融合 篮球运动 数据集 实时跟踪 3D重建

📋 核心要点

  1. 现有基于多相机的篮球运动员跟踪系统受限于2D视频数据,3D重建复杂,难以实现实时分析,尤其是在高遮挡的篮球比赛中。
  2. 论文提出BasketLiDAR数据集,并设计了一种新颖的多目标跟踪框架,利用LiDAR高精度3D信息,结合相机数据,提升跟踪精度并降低计算成本。
  3. 实验结果表明,该方法能够实现实时运行,并在遮挡条件下获得优于传统方法的跟踪性能,为篮球战术分析等应用提供了可能。

📝 摘要(中文)

本文构建了BasketLiDAR,这是运动多目标跟踪(MOT)领域首个结合LiDAR点云与同步多视角相机视频的多模态数据集,专门针对职业篮球环境。该数据集包含4445帧和3105个球员ID,三个LiDAR传感器和三个多视角相机之间实现了完全同步的ID标注。数据来源于真实的职业篮球5对5和3对3比赛,提供了每个球员完整的3D位置信息和ID标注。基于此数据集,我们开发了一种新颖的MOT算法,该算法利用LiDAR的高精度3D空间信息,包含一个仅使用LiDAR的实时跟踪流水线和一个融合LiDAR和相机数据的多模态跟踪流水线。实验结果表明,该方法实现了传统纯相机方法难以实现的实时运行,并在遮挡条件下实现了卓越的跟踪性能。

🔬 方法详解

问题定义:论文旨在解决职业篮球比赛中快速移动、频繁身体接触导致严重遮挡情况下,实时高精度地跟踪所有球员的3D轨迹这一难题。现有基于多相机的多目标跟踪方法,由于视频数据的二维特性以及复杂的3D重建过程,难以在计算资源有限的情况下实现实时性和鲁棒性。

核心思路:论文的核心思路是利用LiDAR传感器提供的高精度3D空间信息,克服相机在遮挡情况下的弱点。同时,结合相机数据,进一步提升跟踪的准确性和鲁棒性。通过设计一个融合LiDAR和相机数据的多模态跟踪框架,实现实时、准确的球员跟踪。

技术框架:该方法包含两个主要的跟踪流水线:1) 基于LiDAR的实时跟踪流水线:利用LiDAR点云数据进行初步的球员检测和跟踪,实现快速的实时跟踪。2) 多模态跟踪流水线:融合LiDAR和相机数据,利用相机提供的视觉信息,例如颜色、纹理等,进一步提升跟踪的准确性和鲁棒性。整体流程包括数据预处理、目标检测、特征提取、数据关联和轨迹生成等步骤。

关键创新:该论文的关键创新在于:1) 构建了首个篮球运动多目标跟踪的LiDAR-相机多模态数据集BasketLiDAR。2) 提出了一个融合LiDAR和相机数据的多模态跟踪框架,充分利用了两种传感器的优势。3) 设计了一个实时跟踪流水线,实现了在计算资源有限的情况下进行实时跟踪。

关键设计:在数据关联阶段,论文可能采用了卡尔曼滤波或匈牙利算法等方法,将不同帧的目标检测结果进行关联,生成完整的球员轨迹。损失函数的设计可能包括位置损失、速度损失和ID一致性损失等,以保证跟踪的准确性和稳定性。具体的网络结构和参数设置在论文中应该有详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含4445帧和3105个球员ID的BasketLiDAR数据集,并提出了一个融合LiDAR和相机数据的多模态跟踪框架。实验结果表明,该方法能够实现实时运行,并在遮挡条件下获得优于传统方法的跟踪性能。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可应用于篮球战术分析、球员表现评估、虚拟现实直播等领域。通过实时准确地跟踪球员的3D轨迹,教练和分析师可以更深入地了解比赛的战术布局和球员的表现,为制定更有效的训练计划和比赛策略提供数据支持。此外,该技术还可以用于增强观众的观赛体验,例如通过虚拟现实技术,让观众可以从任意角度观看比赛。

📄 摘要(原文)

Real-time 3D trajectory player tracking in sports plays a crucial role in tactical analysis, performance evaluation, and enhancing spectator experience. Traditional systems rely on multi-camera setups, but are constrained by the inherently two-dimensional nature of video data and the need for complex 3D reconstruction processing, making real-time analysis challenging. Basketball, in particular, represents one of the most difficult scenarios in the MOT field, as ten players move rapidly and complexly within a confined court space, with frequent occlusions caused by intense physical contact. To address these challenges, this paper constructs BasketLiDAR, the first multimodal dataset in the sports MOT field that combines LiDAR point clouds with synchronized multi-view camera footage in a professional basketball environment, and proposes a novel MOT framework that simultaneously achieves improved tracking accuracy and reduced computational cost. The BasketLiDAR dataset contains a total of 4,445 frames and 3,105 player IDs, with fully synchronized IDs between three LiDAR sensors and three multi-view cameras. We recorded 5-on-5 and 3-on-3 game data from actual professional basketball players, providing complete 3D positional information and ID annotations for each player. Based on this dataset, we developed a novel MOT algorithm that leverages LiDAR's high-precision 3D spatial information. The proposed method consists of a real-time tracking pipeline using LiDAR alone and a multimodal tracking pipeline that fuses LiDAR and camera data. Experimental results demonstrate that our approach achieves real-time operation, which was difficult with conventional camera-only methods, while achieving superior tracking performance even under occlusion conditions. The dataset is available upon request at: https://sites.google.com/keio.jp/keio-csg/projects/basket-lidar