STROKEVISION-BENCH: A Multimodal Video And 2D Pose Benchmark For Tracking Stroke Recovery
作者: David Robinson, Animesh Gupta, Rizwan Quershi, Qiushi Fu, Mubarak Shah
分类: eess.IV, cs.CV, cs.LG
发布日期: 2025-09-02
备注: 6 pages
💡 一句话要点
StrokeVision-Bench:用于跟踪中风恢复的多模态视频和2D姿态基准数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 中风康复 数据集 视频动作识别 2D姿态估计 积木转移任务
📋 核心要点
- 现有中风后上肢功能评估主观性强,缺乏对细微运动改善的敏感性,阻碍了个性化康复计划的制定。
- StrokeVision-Bench数据集专注于临床结构化的积木转移任务,提供原始视频和2D骨骼关键点两种模态的数据。
- 论文对多种先进的动作识别方法进行了基准测试,为自动化中风康复评估研究奠定了基础。
📝 摘要(中文)
本文介绍StrokeVision-Bench,这是首个专门针对中风患者执行临床结构化积木转移任务的数据集。该数据集包含1000个带注释的视频,分为四个具有临床意义的动作类别,每个样本以两种模态表示:原始视频帧和2D骨骼关键点。为了建立该领域的性能基线并促进未来在自动化中风康复评估方面的研究,我们对几种最先进的视频动作识别和基于骨骼的动作分类方法进行了基准测试。该数据集旨在解决现有中风康复数据集的局限性,例如缺乏临床结构化评估和混合健康/中风个体,从而为客观、定量和可扩展的上肢运动功能评估提供支持。
🔬 方法详解
问题定义:现有中风康复数据集主要关注日常生活活动,缺乏对临床结构化评估(如积木转移任务)的关注。此外,许多数据集混合了健康人和中风患者的数据,限制了其临床应用价值。因此,需要一个专门针对中风患者执行临床结构化任务的数据集,以支持更客观和定量的评估。
核心思路:论文的核心思路是构建一个高质量、多模态的中风患者积木转移任务数据集,该数据集包含原始视频和2D骨骼关键点信息,并提供详细的动作类别标注。通过对现有动作识别算法进行基准测试,为未来的研究提供参考。
技术框架:StrokeVision-Bench数据集的构建流程主要包括以下几个阶段:1) 招募中风患者并进行积木转移任务的录制;2) 对录制的视频进行动作类别标注,分为四个临床意义的类别;3) 使用姿态估计模型提取视频中的2D骨骼关键点;4) 将原始视频和2D骨骼关键点数据进行整理,形成最终的数据集。
关键创新:该数据集的关键创新在于:1) 它是首个专门针对中风患者执行临床结构化积木转移任务的数据集;2) 它提供了原始视频和2D骨骼关键点两种模态的数据,方便研究人员进行多模态融合研究;3) 它对数据集进行了详细的动作类别标注,方便研究人员进行动作识别和分类研究。
关键设计:数据集包含1000个视频,分为四个动作类别。视频帧率和分辨率未知。2D骨骼关键点使用现有的姿态估计模型提取,具体的模型选择和参数设置未知。论文使用常见的视频动作识别和骨骼动作识别模型作为基线方法,损失函数和网络结构均为对应模型默认设置。
🖼️ 关键图片
📊 实验亮点
论文对StrokeVision-Bench数据集进行了基准测试,使用了多种最先进的视频动作识别和骨骼动作识别方法。具体的性能数据和提升幅度未知,但该基准测试为未来的研究提供了一个参考标准,方便研究人员比较不同算法在该数据集上的表现。
🎯 应用场景
StrokeVision-Bench数据集可用于开发自动化中风康复评估系统,为临床医生提供客观、定量的评估指标,辅助制定个性化的康复计划。该数据集还可以促进基于计算机视觉和机器学习的中风康复研究,例如动作识别、姿态估计和运动功能预测等。未来,该数据集可以扩展到其他临床评估任务和患者群体,进一步提升中风康复的智能化水平。
📄 摘要(原文)
Despite advancements in rehabilitation protocols, clinical assessment of upper extremity (UE) function after stroke largely remains subjective, relying heavily on therapist observation and coarse scoring systems. This subjectivity limits the sensitivity of assessments to detect subtle motor improvements, which are critical for personalized rehabilitation planning. Recent progress in computer vision offers promising avenues for enabling objective, quantitative, and scalable assessment of UE motor function. Among standardized tests, the Box and Block Test (BBT) is widely utilized for measuring gross manual dexterity and tracking stroke recovery, providing a structured setting that lends itself well to computational analysis. However, existing datasets targeting stroke rehabilitation primarily focus on daily living activities and often fail to capture clinically structured assessments such as block transfer tasks. Furthermore, many available datasets include a mixture of healthy and stroke-affected individuals, limiting their specificity and clinical utility. To address these critical gaps, we introduce StrokeVision-Bench, the first-ever dedicated dataset of stroke patients performing clinically structured block transfer tasks. StrokeVision-Bench comprises 1,000 annotated videos categorized into four clinically meaningful action classes, with each sample represented in two modalities: raw video frames and 2D skeletal keypoints. We benchmark several state-of-the-art video action recognition and skeleton-based action classification methods to establish performance baselines for this domain and facilitate future research in automated stroke rehabilitation assessment.