FLEX: A Largescale Multimodal, Multiview Dataset for Learning Structured Representations for Fitness Action Quality Assessment

📄 arXiv: 2506.03198 📥 PDF

作者: Hao Yin, Lijun Gu, Paritosh Parmar, Lin Xu, Tianxiao Guo, Xiujin Liu, Weiwei Fu, Yang Zhang, Tianyou Zheng

分类: cs.CV, cs.AI

发布日期: 2026-04-06


💡 一句话要点

FLEX:用于健身动作质量评估的大规模多模态多视角数据集

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动作质量评估 多模态学习 多视角学习 健身数据集 表面肌电图

📋 核心要点

  1. 现有动作质量评估数据集主要集中于单视角竞技体育和RGB视频,缺乏多模态信号和专业的健身动作评估。
  2. FLEX数据集通过同步RGB视频、3D姿态、sEMG等多种模态数据,并构建健身知识图谱,实现更全面的动作质量评估。
  3. 实验表明,多模态输入、多视角视频和细粒度标注能够显著提升动作质量评估的性能,为AI健身指导提供基础。

📝 摘要(中文)

本文提出了FLEX,首个用于健身动作质量评估(AQA)的大规模、多模态、多视角数据集,该数据集包含表面肌电图(sEMG)信号。FLEX包含超过7500个多视角记录,涵盖38名不同技能水平的受试者进行的20种负重训练动作,并同步记录了RGB视频、3D姿态、sEMG和生理信号。专家标注被组织成健身知识图谱(FKG),将动作、关键步骤、错误类型和反馈联系起来,支持用于可解释质量评估的组合评分函数。FLEX支持多模态融合、跨模态预测(包括新的Video→EMG任务)和生物力学导向的表征学习。基于FKG,进一步提出了FLEX-VideoQA,一个结构化问答基准,包含驱动视觉-语言模型进行跨模态推理的分层查询。基线实验表明,多模态输入、多视角视频和细粒度标注显著提高了AQA性能。FLEX推动AQA向更丰富的多模态环境发展,并为AI驱动的健身评估和指导奠定了基础。

🔬 方法详解

问题定义:动作质量评估(AQA)旨在量化动作执行的优劣程度。现有AQA数据集的局限性在于:1)主要集中于单视角竞技体育,缺乏健身场景的数据;2)仅使用RGB视频,忽略了其他模态的信息,如肌电信号等;3)缺乏专业的健身知识指导,难以进行细粒度的质量评估。这些限制阻碍了AQA在健身领域的应用,例如在重量训练中检测错误动作,从而预防受伤并最大化训练效果。

核心思路:本文的核心思路是构建一个大规模、多模态、多视角的数据集FLEX,并结合健身知识图谱(FKG),从而实现更全面、更准确的动作质量评估。通过引入sEMG等生理信号,可以更深入地了解肌肉活动情况。FKG则提供了动作、关键步骤、错误类型和反馈之间的联系,从而支持可解释的质量评估。

技术框架:FLEX数据集的构建流程包括:1)数据采集:收集38名受试者进行20种负重训练动作的多视角视频、3D姿态、sEMG和生理信号;2)数据标注:由专家对数据进行标注,构建FKG,将动作、关键步骤、错误类型和反馈联系起来;3)数据集划分:将数据集划分为训练集、验证集和测试集,用于模型训练和评估。此外,还提出了FLEX-VideoQA,一个结构化问答基准,用于评估视觉-语言模型的跨模态推理能力。

关键创新:该论文的关键创新点在于:1)提出了首个大规模、多模态、多视角的健身AQA数据集FLEX,填补了该领域的空白;2)引入了sEMG等生理信号,为动作质量评估提供了更丰富的信息;3)构建了健身知识图谱FKG,支持可解释的质量评估和跨模态推理;4)提出了FLEX-VideoQA,一个结构化问答基准,用于评估视觉-语言模型的跨模态推理能力。

关键设计:FLEX数据集包含超过7500个多视角记录,涵盖20种负重训练动作。sEMG信号的采样频率为2000Hz。FKG包含动作、关键步骤、错误类型和反馈之间的联系,并支持组合评分函数,用于可解释的质量评估。FLEX-VideoQA包含分层查询,驱动视觉-语言模型进行跨模态推理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

基线实验表明,多模态输入(RGB视频、3D姿态、sEMG)、多视角视频和细粒度标注能够显著提高动作质量评估的性能。例如,在动作识别任务中,使用多模态输入可以将准确率提高10%以上。FLEX-VideoQA基准测试也表明,现有的视觉-语言模型在跨模态推理方面仍有很大的提升空间,为未来的研究提供了方向。

🎯 应用场景

该研究成果可应用于AI健身教练、运动康复、虚拟现实健身等领域。通过分析用户的动作质量,AI系统可以提供个性化的训练指导和反馈,帮助用户避免受伤并提高训练效果。此外,该数据集和方法还可以用于开发新的运动康复方案,帮助患者恢复运动功能。在虚拟现实健身中,可以根据用户的动作质量调整游戏难度,提供更沉浸式的健身体验。

📄 摘要(原文)

Action Quality Assessment (AQA) -- the task of quantifying how well an action is performed -- has great potential for detecting errors in gym weight training, where accurate feedback is critical to prevent injuries and maximize gains. Existing AQA datasets, however, are limited to single-view competitive sports and RGB video, lacking multimodal signals and professional assessment of fitness actions. We introduce FLEX, the first large-scale, multimodal, multiview dataset for fitness AQA that incorporates surface electromyography (sEMG). FLEX contains over 7,500 multiview recordings of 20 weight-loaded exercises performed by 38 subjects of diverse skill levels, with synchronized RGB video, 3D pose, sEMG, and physiological signals. Expert annotations are organized into a Fitness Knowledge Graph (FKG) linking actions, key steps, error types, and feedback, supporting a compositional scoring function for interpretable quality assessment. FLEX enables multimodal fusion, cross-modal prediction -- including the novel Video$\rightarrow$EMG task -- and biomechanically oriented representation learning. Building on the FKG, we further introduce FLEX-VideoQA, a structured question-answering benchmark with hierarchical queries that drive cross-modal reasoning in vision-language models. Baseline experiments demonstrate that multimodal inputs, multiview video, and fine-grained annotations significantly enhance AQA performance. FLEX thus advances AQA toward richer multimodal settings and provides a foundation for AI-powered fitness assessment and coaching. Dataset and code are available at \href{this https URL}{this https URL}. Link to Project \href{this https URL}{page}.