Automated ARAT Scoring Using Multimodal Video Analysis, Multi-View Fusion, and Hierarchical Bayesian Models: A Clinician Study

📄 arXiv: 2505.01680v1 📥 PDF

作者: Tamim Ahmed, Thanassis Rikakis

分类: cs.CV, cs.AI, cs.HC, math.PR

发布日期: 2025-05-03


💡 一句话要点

提出基于多模态视频分析和分层贝叶斯模型的自动ARAT评分系统,提升卒中康复评估效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 卒中康复 ARAT评分 多模态视频分析 分层贝叶斯模型 多视角融合 自动化评估 运动质量评估

📋 核心要点

  1. 手动ARAT评分耗时且主观性强,限制了卒中康复评估的效率和一致性。
  2. 利用多模态视频分析和分层贝叶斯模型,自动评估ARAT评分,提高评估效率和客观性。
  3. 实验结果表明,该系统验证准确率达到89.0%,且与人工评估结果高度一致,具有临床应用潜力。

📝 摘要(中文)

本研究提出了一种自动化的Action Research Arm Test (ARAT) 评分系统,用于卒中康复中上肢评估。该系统集成了多模态视频分析,利用SlowFast、I3D和基于Transformer的模型,结合OpenPose关键点和物体位置信息。该方法采用多视角数据(患侧、健侧和顶部视角),通过早期和晚期融合来结合不同视角和模型的特征。分层贝叶斯模型(HBMs)推断运动质量组成部分,增强了可解释性。临床医生仪表板显示任务分数、执行时间和质量评估。一项包含五位临床医生的研究评估了该系统生成的500个视频评分,并提供了关于其准确性和可用性的反馈。在卒中康复数据集上的评估表明,采用晚期融合的框架实现了89.0%的验证准确率,且HBMs与人工评估结果高度一致。这项工作通过提供可扩展、可解释且经过临床验证的解决方案,推动了自动化康复的发展。

🔬 方法详解

问题定义:本论文旨在解决卒中康复评估中Action Research Arm Test (ARAT) 手动评分耗时且主观性强的问题。现有方法依赖人工观察和评分,效率低,且不同评估者之间存在差异,难以实现大规模应用和标准化评估。

核心思路:论文的核心思路是利用计算机视觉和机器学习技术,从多模态视频数据中自动提取运动特征,并结合分层贝叶斯模型进行运动质量评估和评分。通过多视角融合和模型集成,提高系统的鲁棒性和准确性,最终实现自动化、客观的ARAT评分。

技术框架:该系统的整体框架包括以下几个主要模块:1) 多模态视频数据采集,包括患侧、健侧和顶部视角;2) 特征提取,利用SlowFast、I3D和基于Transformer的模型提取视频中的时空特征,并结合OpenPose提取人体关键点和物体位置信息;3) 多视角融合,采用早期和晚期融合策略,将不同视角的特征进行整合;4) 分层贝叶斯模型,用于推断运动质量组成部分,并生成最终的ARAT评分;5) 临床医生仪表板,用于展示任务分数、执行时间和质量评估结果。

关键创新:该论文的关键创新点在于:1) 结合多模态视频分析和分层贝叶斯模型,实现自动化ARAT评分;2) 采用多视角融合策略,提高系统的鲁棒性和准确性;3) 利用分层贝叶斯模型,增强了系统的可解释性,方便临床医生理解和使用。

关键设计:在特征提取方面,使用了SlowFast、I3D和Transformer等多种模型,以捕捉不同类型的运动特征。在多视角融合方面,尝试了早期和晚期融合两种策略,并比较了它们的性能。分层贝叶斯模型的设计考虑了运动质量的多个组成部分,并利用贝叶斯推断方法进行参数估计。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该系统在卒中康复数据集上实现了89.0%的验证准确率,表明其具有较高的评分准确性。分层贝叶斯模型与人工评估结果高度一致,验证了该模型在运动质量评估方面的有效性。临床医生对该系统的准确性和可用性给予了积极评价,表明该系统具有良好的临床应用前景。

🎯 应用场景

该研究成果可应用于卒中康复的临床评估和远程康复指导。通过自动化ARAT评分,可以提高评估效率,降低人工成本,并实现大规模的标准化评估。此外,该系统还可以为康复医生提供客观的运动质量评估结果,辅助制定个性化的康复计划,并跟踪康复进展。未来,该技术有望推广到其他运动功能评估领域,促进康复医学的发展。

📄 摘要(原文)

Manual scoring of the Action Research Arm Test (ARAT) for upper extremity assessment in stroke rehabilitation is time-intensive and variable. We propose an automated ARAT scoring system integrating multimodal video analysis with SlowFast, I3D, and Transformer-based models using OpenPose keypoints and object locations. Our approach employs multi-view data (ipsilateral, contralateral, and top perspectives), applying early and late fusion to combine features across views and models. Hierarchical Bayesian Models (HBMs) infer movement quality components, enhancing interpretability. A clinician dashboard displays task scores, execution times, and quality assessments. We conducted a study with five clinicians who reviewed 500 video ratings generated by our system, providing feedback on its accuracy and usability. Evaluated on a stroke rehabilitation dataset, our framework achieves 89.0% validation accuracy with late fusion, with HBMs aligning closely with manual assessments. This work advances automated rehabilitation by offering a scalable, interpretable solution with clinical validation.