A Fine-Grained Attention and Geometric Correspondence Model for Musculoskeletal Risk Classification in Athletes Using Multimodal Visual and Skeletal Features
作者: Md. Abdur Rahman, Mohaimenul Azam Khan Raiaan, Tamanna Shermin, Md Rafiqul Islam, Mukhtar Hussain, Sami Azam
分类: cs.CV
发布日期: 2025-09-07 (更新: 2025-10-27)
💡 一句话要点
ViSK-GAT:融合视觉与骨骼特征,实现运动员肌肉骨骼风险精准分类
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 肌肉骨骼风险评估 多模态学习 视觉特征 骨骼特征 注意力机制 几何对应 深度学习
📋 核心要点
- 现有肌肉骨骼风险评估方法依赖单一数据类型,在复杂环境中可靠性不足,难以有效预防运动员损伤。
- ViSK-GAT框架融合视觉和骨骼坐标特征,通过细粒度注意力和几何对应模块,增强跨模态特征的对齐和融合。
- 实验结果表明,ViSK-GAT在肌肉骨骼风险分类任务中表现出色,关键指标超过93%,优于多个基线模型。
📝 摘要(中文)
本研究提出了一种名为ViSK-GAT(Visual-Skeletal Geometric Attention Transformer)的新型多模态深度学习框架,用于基于视觉和骨骼坐标特征对运动员的肌肉骨骼风险进行分类。为了训练和评估该模型,创建了一个定制的多模态数据集(MusDis-Sports),该数据集结合了图像和骨骼坐标,并根据快速全身评估(REBA)系统将每个样本标记为八个风险类别之一。ViSK-GAT集成了两个创新模块:细粒度注意力模块(FGAM),通过视觉和骨骼输入之间的交叉注意力来细化模态间特征;以及多模态几何对应模块(MGCM),增强图像特征和坐标之间的跨模态对齐。实验结果表明,该模型表现出色,所有关键指标均超过93%。回归结果也表明RMSE为0.1205,MAE为0.0156。ViSK-GAT始终优于九个流行的迁移学习骨干网络,并显示出其推进人工智能驱动的肌肉骨骼风险评估以及在体育运动中实现早期、有影响力的干预的潜力。
🔬 方法详解
问题定义:论文旨在解决运动员肌肉骨骼风险评估问题,现有方法主要依赖于单一类型的数据,例如图像或骨骼数据,这在复杂的运动环境中难以准确评估风险。这些方法缺乏对不同模态数据之间关系的有效建模,导致评估结果的可靠性降低。
核心思路:论文的核心思路是利用多模态信息融合,结合视觉图像和骨骼坐标数据,通过注意力机制和几何对应关系建模,增强不同模态特征之间的关联性,从而提高肌肉骨骼风险评估的准确性和鲁棒性。这种方法能够更全面地捕捉运动员的运动姿态和潜在风险。
技术框架:ViSK-GAT框架包含以下主要模块:1) 视觉特征提取模块,用于从图像中提取视觉特征;2) 骨骼特征提取模块,用于从骨骼坐标数据中提取骨骼特征;3) 细粒度注意力模块(FGAM),通过交叉注意力机制融合视觉和骨骼特征;4) 多模态几何对应模块(MGCM),增强图像特征和骨骼坐标之间的几何对齐;5) 分类器,用于根据融合后的特征进行风险分类。
关键创新:论文的关键创新在于提出了FGAM和MGCM两个模块。FGAM通过交叉注意力机制,能够自适应地学习不同模态特征之间的重要性,从而更有效地融合视觉和骨骼信息。MGCM则通过建模图像特征和骨骼坐标之间的几何对应关系,增强了跨模态特征的对齐,提高了模型的鲁棒性。
关键设计:FGAM模块使用Transformer结构实现交叉注意力,通过计算视觉特征和骨骼特征之间的相似度,得到注意力权重,并利用这些权重对特征进行加权融合。MGCM模块则通过学习图像特征和骨骼坐标之间的映射关系,将图像特征投影到骨骼坐标空间,从而实现跨模态特征的对齐。损失函数包括分类损失(例如交叉熵损失)和回归损失(例如均方误差损失),用于优化模型的分类和回归性能。
🖼️ 关键图片
📊 实验亮点
ViSK-GAT在MusDis-Sports数据集上取得了显著的性能提升,所有关键指标均超过93%。回归结果显示,RMSE为0.1205,MAE为0.0156。与九个流行的迁移学习骨干网络相比,ViSK-GAT始终表现更优,证明了其在肌肉骨骼风险评估方面的有效性和优越性。
🎯 应用场景
该研究成果可应用于运动员的日常训练和康复过程中,通过实时分析运动员的运动姿态和骨骼数据,评估其肌肉骨骼风险,并提供个性化的训练建议和干预措施,从而降低运动员受伤的风险,提高运动表现。此外,该技术还可应用于其他需要进行姿态分析和风险评估的领域,例如工业安全、医疗康复等。
📄 摘要(原文)
Musculoskeletal disorders pose significant risks to athletes, and assessing risk early is important for prevention. However, most existing methods are designed for controlled settings and fail to reliably assess risk in complex environments due to their reliance on a single type of data. This research introduces ViSK-GAT (Visual-Skeletal Geometric Attention Transformer), a novel multimodal deep learning framework that classifies musculoskeletal risk using both visual and skeletal coordinate-based features. A custom multimodal dataset (MusDis-Sports) was created by combining images and skeletal coordinates, with each sample labeled into eight risk categories based on the Rapid Entire Body Assessment (REBA) system. ViSK-GAT integrates two innovative modules: the Fine-Grained Attention Module (FGAM), which refines inter-modal features via cross-attention between visual and skeletal inputs, and the Multimodal Geometric Correspondence Module (MGCM), which enhances cross-modal alignment between image features and coordinates. The model achieved robust performance, with all key metrics exceeding 93%. Regression results also indicated a low RMSE of 0.1205 and MAE of 0.0156. ViSK-GAT consistently outperformed nine popular transfer learning backbones and showed its potential to advance AI-driven musculoskeletal risk assessment and enable early, impactful interventions in sports.