Automated ARAT Scoring Using Multimodal Video Analysis, Multi-View Fusion, and Hierarchical Bayesian Models: A Clinician Study

作者: Tamim Ahmed, Thanassis Rikakis

分类: cs.CV, cs.AI, cs.HC, math.PR

发布日期: 2025-05-03

💡 一句话要点

提出基于多模态视频分析和分层贝叶斯模型的自动ARAT评分系统，提升卒中康复评估效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 卒中康复 ARAT评分 多模态视频分析 分层贝叶斯模型 多视角融合 自动化评估 运动质量评估

📋 核心要点

手动ARAT评分耗时且主观性强，限制了卒中康复评估的效率和一致性。
利用多模态视频分析和分层贝叶斯模型，自动评估ARAT评分，提高评估效率和客观性。
实验结果表明，该系统验证准确率达到89.0%，且与人工评估结果高度一致，具有临床应用潜力。

📝 摘要（中文）

本研究提出了一种自动化的Action Research Arm Test (ARAT) 评分系统，用于卒中康复中上肢评估。该系统集成了多模态视频分析，利用SlowFast、I3D和基于Transformer的模型，结合OpenPose关键点和物体位置信息。该方法采用多视角数据（患侧、健侧和顶部视角），通过早期和晚期融合来结合不同视角和模型的特征。分层贝叶斯模型(HBMs)推断运动质量组成部分，增强了可解释性。临床医生仪表板显示任务分数、执行时间和质量评估。一项包含五位临床医生的研究评估了该系统生成的500个视频评分，并提供了关于其准确性和可用性的反馈。在卒中康复数据集上的评估表明，采用晚期融合的框架实现了89.0%的验证准确率，且HBMs与人工评估结果高度一致。这项工作通过提供可扩展、可解释且经过临床验证的解决方案，推动了自动化康复的发展。

🔬 方法详解

问题定义：本论文旨在解决卒中康复评估中Action Research Arm Test (ARAT) 手动评分耗时且主观性强的问题。现有方法依赖人工观察和评分，效率低，且不同评估者之间存在差异，难以实现大规模应用和标准化评估。

核心思路：论文的核心思路是利用计算机视觉和机器学习技术，从多模态视频数据中自动提取运动特征，并结合分层贝叶斯模型进行运动质量评估和评分。通过多视角融合和模型集成，提高系统的鲁棒性和准确性，最终实现自动化、客观的ARAT评分。

技术框架：该系统的整体框架包括以下几个主要模块：1) 多模态视频数据采集，包括患侧、健侧和顶部视角；2) 特征提取，利用SlowFast、I3D和基于Transformer的模型提取视频中的时空特征，并结合OpenPose提取人体关键点和物体位置信息；3) 多视角融合，采用早期和晚期融合策略，将不同视角的特征进行整合；4) 分层贝叶斯模型，用于推断运动质量组成部分，并生成最终的ARAT评分；5) 临床医生仪表板，用于展示任务分数、执行时间和质量评估结果。

关键创新：该论文的关键创新点在于：1) 结合多模态视频分析和分层贝叶斯模型，实现自动化ARAT评分；2) 采用多视角融合策略，提高系统的鲁棒性和准确性；3) 利用分层贝叶斯模型，增强了系统的可解释性，方便临床医生理解和使用。

关键设计：在特征提取方面，使用了SlowFast、I3D和Transformer等多种模型，以捕捉不同类型的运动特征。在多视角融合方面，尝试了早期和晚期融合两种策略，并比较了它们的性能。分层贝叶斯模型的设计考虑了运动质量的多个组成部分，并利用贝叶斯推断方法进行参数估计。

🖼️ 关键图片

📊 实验亮点

该系统在卒中康复数据集上实现了89.0%的验证准确率，表明其具有较高的评分准确性。分层贝叶斯模型与人工评估结果高度一致，验证了该模型在运动质量评估方面的有效性。临床医生对该系统的准确性和可用性给予了积极评价，表明该系统具有良好的临床应用前景。

🎯 应用场景

该研究成果可应用于卒中康复的临床评估和远程康复指导。通过自动化ARAT评分，可以提高评估效率，降低人工成本，并实现大规模的标准化评估。此外，该系统还可以为康复医生提供客观的运动质量评估结果，辅助制定个性化的康复计划，并跟踪康复进展。未来，该技术有望推广到其他运动功能评估领域，促进康复医学的发展。

📄 摘要（原文）

Manual scoring of the Action Research Arm Test (ARAT) for upper extremity assessment in stroke rehabilitation is time-intensive and variable. We propose an automated ARAT scoring system integrating multimodal video analysis with SlowFast, I3D, and Transformer-based models using OpenPose keypoints and object locations. Our approach employs multi-view data (ipsilateral, contralateral, and top perspectives), applying early and late fusion to combine features across views and models. Hierarchical Bayesian Models (HBMs) infer movement quality components, enhancing interpretability. A clinician dashboard displays task scores, execution times, and quality assessments. We conducted a study with five clinicians who reviewed 500 video ratings generated by our system, providing feedback on its accuracy and usability. Evaluated on a stroke rehabilitation dataset, our framework achieves 89.0% validation accuracy with late fusion, with HBMs aligning closely with manual assessments. This work advances automated rehabilitation by offering a scalable, interpretable solution with clinical validation.

Automated ARAT Scoring Using Multimodal Video Analysis, Multi-View Fusion, and Hierarchical Bayesian Models: A Clinician Study

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理