Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

作者: Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader, Tariq Adnan, Fazla Rabbi Mashrur, Sooyong Park, Praveen Kumar, Qasim Sudais, Natalia Chunga, Nami Shah, Jan Freyberg, Christopher Kanan, Ruth Schneider, Ehsan Hoque

分类: cs.CV

发布日期: 2026-02-13

💡 一句话要点

利用视频基础模型进行远程帕金森病筛查的基准测试研究

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 帕金森病筛查 视频基础模型 远程医疗 临床任务 基准测试

📋 核心要点

现有帕金森病筛查方法依赖手工特征，缺乏通用性和可扩展性，难以适应远程视频评估。
利用视频基础模型（VFMs）学习视频表征，无需针对特定任务进行定制，提升了模型的泛化能力。
通过大规模实验，评估了多种VFMs在不同临床任务上的表现，为远程帕金森病筛查提供了基准。

📝 摘要（中文）

本文提出了一项大规模的系统研究，旨在评估视频基础模型（VFMs）在远程帕金森病（PD）筛查中的有效性。研究使用了一个包含1888名参与者（其中727名患有PD）的新型视频数据集，该数据集包含16项标准化临床任务的32847个视频。研究评估了七种最先进的VFMs，包括VideoPrism、V-JEPA、ViViT和VideoMAE，以确定它们在临床筛查中的鲁棒性。通过使用线性分类头评估冻结的嵌入，结果表明任务显著性高度依赖于模型：VideoPrism擅长捕捉视觉语音运动学（无音频）和面部表情，而V-JEPA在手臂运动任务中表现更佳。TimeSformer在手指敲击等节律性任务中仍然具有很强的竞争力。实验结果AUC在76.4-85.3%之间，准确率在71.5-80.6%之间。虽然高特异性（高达90.3%）表明其在排除健康个体方面具有强大的潜力，但较低的敏感性（43.2-57.3%）突出了任务感知校准以及多任务和多模态集成的重要性。这项工作为基于VFM的PD筛查建立了一个严格的基准，并为远程神经系统监测中选择合适的任务和架构提供了路线图。

🔬 方法详解

问题定义：论文旨在解决远程帕金森病（PD）筛查问题。现有方法依赖于手工设计的特征，这些特征模仿临床量表，但缺乏通用性和可扩展性。此外，不同临床任务的特征设计往往需要专家知识，成本较高。因此，如何利用视频数据自动学习有效的表征，并实现准确的远程PD筛查，是本文要解决的核心问题。

核心思路：论文的核心思路是利用预训练的视频基础模型（VFMs）提取视频特征，然后使用简单的线性分类器进行PD筛查。这种方法避免了手工设计特征的复杂性，并能够利用VFMs在大量无标签数据上学习到的通用视频表征。通过评估不同VFMs在不同临床任务上的表现，可以为远程PD筛查选择合适的模型和任务。

技术框架：整体框架包括以下几个主要步骤：1) 数据收集：构建包含1888名参与者的视频数据集，涵盖16项标准化临床任务。2) 特征提取：使用七种预训练的VFMs（VideoPrism, V-JEPA, ViViT, VideoMAE, TimeSformer等）提取视频特征。3) 分类：使用线性分类器（例如Logistic回归）对提取的特征进行分类，预测参与者是否患有PD。4) 评估：使用AUC、准确率、特异性和敏感性等指标评估模型的性能。

关键创新：论文的关键创新在于：1) 大规模基准测试：构建了一个大规模的视频数据集，并对多种VFMs进行了系统的评估，为远程PD筛查提供了一个可靠的基准。2) 任务依赖性分析：发现不同VFMs在不同临床任务上的表现存在差异，强调了任务选择的重要性。3) 无需微调：通过使用冻结的VFM特征，避免了在小规模临床数据集上微调模型的风险，提高了模型的泛化能力。

关键设计：论文的关键设计包括：1) 数据集构建：收集了包含多种临床任务的视频数据，涵盖了PD患者的多种运动和表达特征。2) 模型选择：选择了具有代表性的VFMs，包括基于Transformer的模型（ViViT, TimeSformer）、自监督学习的模型（V-JEPA, VideoMAE）和多模态模型（VideoPrism）。3) 评估指标：使用了AUC、准确率、特异性和敏感性等多个指标，全面评估模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同的视频基础模型在不同的临床任务上表现出不同的优势。例如，VideoPrism在捕捉视觉语音运动学和面部表情方面表现出色，而V-JEPA在手臂运动任务中表现更佳。TimeSformer在节律性任务（如手指敲击）中仍然具有竞争力。最佳模型的AUC达到85.3%，准确率达到80.6%，特异性高达90.3%。

🎯 应用场景

该研究成果可应用于远程医疗、智能健康监测等领域，实现帕金森病的早期筛查和诊断。通过视频分析，可以降低筛查成本，提高筛查效率，尤其是在医疗资源匮乏的地区具有重要意义。未来，结合多模态数据（如音频、文本）和个性化模型，有望进一步提升筛查的准确性和可靠性。

📄 摘要（原文）

Remote, video-based assessments offer a scalable pathway for Parkinson's disease (PD) screening. While traditional approaches rely on handcrafted features mimicking clinical scales, recent advances in video foundation models (VFMs) enable representation learning without task-specific customization. However, the comparative effectiveness of different VFM architectures across diverse clinical tasks remains poorly understood. We present a large-scale systematic study using a novel video dataset from 1,888 participants (727 with PD), comprising 32,847 videos across 16 standardized clinical tasks. We evaluate seven state-of-the-art VFMs -- including VideoPrism, V-JEPA, ViViT, and VideoMAE -- to determine their robustness in clinical screening. By evaluating frozen embeddings with a linear classification head, we demonstrate that task saliency is highly model-dependent: VideoPrism excels in capturing visual speech kinematics (no audio) and facial expressivity, while V-JEPA proves superior for upper-limb motor tasks. Notably, TimeSformer remains highly competitive for rhythmic tasks like finger tapping. Our experiments yield AUCs of 76.4-85.3% and accuracies of 71.5-80.6%. While high specificity (up to 90.3%) suggests strong potential for ruling out healthy individuals, the lower sensitivity (43.2-57.3%) highlights the need for task-aware calibration and integration of multiple tasks and modalities. Overall, this work establishes a rigorous baseline for VFM-based PD screening and provides a roadmap for selecting suitable tasks and architectures in remote neurological monitoring. Code and anonymized structured data are publicly available: https://anonymous.4open.science/r/parkinson_video_benchmarking-A2C5

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理