The Potential and Limitations of Vision-Language Models for Human Motion Understanding: A Case Study in Data-Driven Stroke Rehabilitation

作者: Victor Li, Naveenraj Kamalakannan, Avinash Parnandi, Heidi Schambra, Carlos Fernandez-Granda

分类: cs.CV

发布日期: 2025-11-21

💡 一句话要点

利用视觉-语言模型进行中风康复数据驱动分析的潜力与局限性研究

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 视觉-语言模型 中风康复 运动识别 康复剂量量化 损伤程度评估

📋 核心要点

现有中风康复评估方法依赖人工，效率低且主观，缺乏客观量化标准。
利用视觉-语言模型直接从视频中识别运动，无需额外训练即可进行康复剂量和损伤评估。
实验表明，现有VLM在精细运动理解方面存在局限，但通过优化提示和后处理，仍具有潜力。

📝 摘要（中文）

视觉-语言模型(VLMs)在计算机视觉任务中表现出色，引发了人们对其在数字健康应用中潜力的兴趣。本文将VLMs应用于数据驱动的中风康复中的两个基本挑战：自动量化康复剂量和从视频中评估损伤程度。我们将这些问题转化为运动识别任务，并使用VLMs解决。我们在29名健康对照者和51名中风幸存者的数据集上评估了所提出的框架。结果表明，当前的VLMs缺乏精细的运动理解能力，无法进行精确量化：剂量估计与排除视觉信息的基线相当，并且无法可靠地预测损伤评分。然而，一些发现表明了未来的希望。通过优化的提示和后处理，VLMs可以从少量帧中分类高级活动，以中等精度检测运动和抓握，并为轻度损伤和健康参与者估计剂量计数，误差在真实值的25%以内，所有这些都不需要特定于任务的训练或微调。这些结果突出了VLMs在数据驱动的中风康复和更广泛的临床视频分析中的当前局限性和新兴机会。

🔬 方法详解

问题定义：论文旨在解决中风康复中康复剂量量化和损伤程度评估的问题。现有方法依赖于人工评估，耗时且主观，缺乏客观性。因此，需要一种自动化的、数据驱动的方法来提高评估效率和准确性。

核心思路：论文的核心思路是将康复剂量量化和损伤程度评估问题转化为运动识别任务，并利用视觉-语言模型(VLMs)的强大能力来解决这些问题。通过将视频帧和文本描述相结合，VLMs能够理解视频中的运动并进行分类和量化。

技术框架：整体框架包括以下几个主要步骤：1)视频数据预处理，包括视频分割和帧提取；2)使用VLMs对提取的帧进行运动识别，例如识别患者是否在进行特定的康复动作；3)基于运动识别的结果，计算康复剂量和损伤程度评分；4)对VLMs的输出进行后处理，例如使用滑动平均来平滑剂量估计。

关键创新：论文的关键创新在于将VLMs应用于中风康复领域，并探索了其在康复剂量量化和损伤程度评估方面的潜力。此外，论文还提出了一种优化的提示和后处理方法，以提高VLMs的性能。

关键设计：论文使用了CLIP等预训练的VLMs，并设计了特定的提示工程(prompt engineering)来指导VLMs进行运动识别。例如，使用“A person is [运动名称]”这样的提示。此外，论文还使用了滑动平均等后处理技术来平滑剂量估计，并使用相关系数等指标来评估VLMs的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在没有特定任务训练或微调的情况下，VLMs能够以中等精度检测运动和抓握，并为轻度损伤和健康参与者估计剂量计数，误差在真实值的25%以内。虽然当前VLMs在精细运动理解方面存在局限性，但通过优化提示和后处理，其性能得到了显著提升，表明了VLMs在该领域的巨大潜力。

🎯 应用场景

该研究成果可应用于中风康复的远程监控、个性化康复方案设计和康复效果评估。通过自动分析患者的康复视频，医生可以更有效地跟踪患者的康复进展，并根据患者的实际情况调整康复计划。此外，该技术还可以用于其他临床视频分析任务，例如手术过程分析和疾病诊断。

📄 摘要（原文）

Vision-language models (VLMs) have demonstrated remarkable performance across a wide range of computer-vision tasks, sparking interest in their potential for digital health applications. Here, we apply VLMs to two fundamental challenges in data-driven stroke rehabilitation: automatic quantification of rehabilitation dose and impairment from videos. We formulate these problems as motion-identification tasks, which can be addressed using VLMs. We evaluate our proposed framework on a cohort of 29 healthy controls and 51 stroke survivors. Our results show that current VLMs lack the fine-grained motion understanding required for precise quantification: dose estimates are comparable to a baseline that excludes visual information, and impairment scores cannot be reliably predicted. Nevertheless, several findings suggest future promise. With optimized prompting and post-processing, VLMs can classify high-level activities from a few frames, detect motion and grasp with moderate accuracy, and approximate dose counts within 25% of ground truth for mildly impaired and healthy participants, all without task-specific training or finetuning. These results highlight both the current limitations and emerging opportunities of VLMs for data-driven stroke rehabilitation and broader clinical video analysis.

The Potential and Limitations of Vision-Language Models for Human Motion Understanding: A Case Study in Data-Driven Stroke Rehabilitation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理