Automated ARAT Scoring Using Multimodal Video Analysis, Multi-View Fusion, and Hierarchical Bayesian Models: A Clinician Study

作者: Tamim Ahmed, Thanassis Rikakis

分类: cs.CV, cs.AI, cs.HC, math.PR

发布日期: 2025-05-03

💡 一句话要点

提出自动化ARAT评分系统以解决中风康复评估的时间和准确性问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动化评分 中风康复 多模态视频分析 层次贝叶斯模型 特征融合 临床验证 动作研究手臂测试 智能医疗

📋 核心要点

现有的ARAT手动评分方法耗时且结果存在较大变异性，影响了中风患者的康复评估效率和准确性。
本文提出了一种自动化ARAT评分系统，结合多模态视频分析和层次贝叶斯模型，利用多视角数据进行特征融合。
在中风康复数据集上进行的实验表明，系统在晚期融合下达到了89.0%的验证准确率，且与手动评估结果高度一致。

📝 摘要（中文）

手动评分动作研究手臂测试（ARAT）在中风康复中的上肢评估既耗时又存在变异性。本文提出了一种自动化ARAT评分系统，结合多模态视频分析与SlowFast、I3D和基于Transformer的模型，利用OpenPose关键点和物体位置。该方法采用多视角数据（同侧、对侧和顶部视角），通过早期和晚期融合技术结合不同视角和模型的特征。层次贝叶斯模型（HBMs）推断运动质量成分，增强了解释性。临床医生仪表板展示任务分数、执行时间和质量评估。我们与五位临床医生进行了研究，审查了系统生成的500个视频评分，并提供了关于其准确性和可用性的反馈。在中风康复数据集上的评估显示，采用晚期融合的框架实现了89.0%的验证准确率，HBMs与手动评估高度一致。本研究通过提供可扩展、可解释的解决方案并获得临床验证，推动了自动化康复的发展。

🔬 方法详解

问题定义：本文旨在解决中风康复中ARAT手动评分的耗时和不一致性问题。现有方法依赖于人工评分，导致评估效率低下且结果不稳定。

核心思路：提出的自动化评分系统通过多模态视频分析与层次贝叶斯模型相结合，利用多视角数据进行特征融合，从而实现高效且一致的评分。

技术框架：系统整体架构包括多模态视频分析模块、特征融合模块和层次贝叶斯模型推断模块。多模态视频分析使用SlowFast、I3D和Transformer模型提取特征，特征融合采用早期和晚期融合策略。

关键创新：最重要的技术创新在于将多视角数据与层次贝叶斯模型结合，提升了评分的准确性和可解释性。这一方法在特征融合和运动质量推断上与现有方法有本质区别。

关键设计：系统使用OpenPose提取关键点和物体位置，采用特定的损失函数优化模型性能，设计了适合多视角数据的特征融合策略，确保了评分的准确性和一致性。

📊 实验亮点

实验结果显示，采用晚期融合的自动化评分系统在中风康复数据集上达到了89.0%的验证准确率，显著高于传统手动评分方法。此外，层次贝叶斯模型的应用使得评分结果与手动评估高度一致，验证了系统的有效性和可靠性。

🎯 应用场景

该研究的自动化ARAT评分系统具有广泛的应用潜力，特别是在中风康复领域。通过提高评估效率和准确性，该系统能够帮助临床医生更好地监测患者的康复进展，并为个性化治疗方案提供数据支持。未来，该技术还可扩展至其他运动评估和康复领域，推动智能医疗的发展。

📄 摘要（原文）

Manual scoring of the Action Research Arm Test (ARAT) for upper extremity assessment in stroke rehabilitation is time-intensive and variable. We propose an automated ARAT scoring system integrating multimodal video analysis with SlowFast, I3D, and Transformer-based models using OpenPose keypoints and object locations. Our approach employs multi-view data (ipsilateral, contralateral, and top perspectives), applying early and late fusion to combine features across views and models. Hierarchical Bayesian Models (HBMs) infer movement quality components, enhancing interpretability. A clinician dashboard displays task scores, execution times, and quality assessments. We conducted a study with five clinicians who reviewed 500 video ratings generated by our system, providing feedback on its accuracy and usability. Evaluated on a stroke rehabilitation dataset, our framework achieves 89.0% validation accuracy with late fusion, with HBMs aligning closely with manual assessments. This work advances automated rehabilitation by offering a scalable, interpretable solution with clinical validation.

Automated ARAT Scoring Using Multimodal Video Analysis, Multi-View Fusion, and Hierarchical Bayesian Models: A Clinician Study

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册