Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening
作者: Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader, Tariq Adnan, Fazla Rabbi Mashrur, Sooyong Park, Praveen Kumar, Qasim Sudais, Natalia Chunga, Nami Shah, Jan Freyberg, Christopher Kanan, Ruth Schneider, Ehsan Hoque
分类: cs.CV
发布日期: 2026-02-13
💡 一句话要点
利用视频基础模型进行远程帕金森病筛查的基准测试研究
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 帕金森病筛查 视频基础模型 远程医疗 临床任务 基准测试
📋 核心要点
- 现有帕金森病筛查方法依赖手工特征,缺乏通用性和可扩展性,难以适应远程视频评估。
- 利用视频基础模型(VFMs)学习视频表征,无需针对特定任务进行定制,提升了模型的泛化能力。
- 通过大规模实验,评估了多种VFMs在不同临床任务上的表现,为远程帕金森病筛查提供了基准。
📝 摘要(中文)
本文提出了一项大规模的系统研究,旨在评估视频基础模型(VFMs)在远程帕金森病(PD)筛查中的有效性。研究使用了一个包含1888名参与者(其中727名患有PD)的新型视频数据集,该数据集包含16项标准化临床任务的32847个视频。研究评估了七种最先进的VFMs,包括VideoPrism、V-JEPA、ViViT和VideoMAE,以确定它们在临床筛查中的鲁棒性。通过使用线性分类头评估冻结的嵌入,结果表明任务显著性高度依赖于模型:VideoPrism擅长捕捉视觉语音运动学(无音频)和面部表情,而V-JEPA在手臂运动任务中表现更佳。TimeSformer在手指敲击等节律性任务中仍然具有很强的竞争力。实验结果AUC在76.4-85.3%之间,准确率在71.5-80.6%之间。虽然高特异性(高达90.3%)表明其在排除健康个体方面具有强大的潜力,但较低的敏感性(43.2-57.3%)突出了任务感知校准以及多任务和多模态集成的重要性。这项工作为基于VFM的PD筛查建立了一个严格的基准,并为远程神经系统监测中选择合适的任务和架构提供了路线图。
🔬 方法详解
问题定义:论文旨在解决远程帕金森病(PD)筛查问题。现有方法依赖于手工设计的特征,这些特征模仿临床量表,但缺乏通用性和可扩展性。此外,不同临床任务的特征设计往往需要专家知识,成本较高。因此,如何利用视频数据自动学习有效的表征,并实现准确的远程PD筛查,是本文要解决的核心问题。
核心思路:论文的核心思路是利用预训练的视频基础模型(VFMs)提取视频特征,然后使用简单的线性分类器进行PD筛查。这种方法避免了手工设计特征的复杂性,并能够利用VFMs在大量无标签数据上学习到的通用视频表征。通过评估不同VFMs在不同临床任务上的表现,可以为远程PD筛查选择合适的模型和任务。
技术框架:整体框架包括以下几个主要步骤:1) 数据收集:构建包含1888名参与者的视频数据集,涵盖16项标准化临床任务。2) 特征提取:使用七种预训练的VFMs(VideoPrism, V-JEPA, ViViT, VideoMAE, TimeSformer等)提取视频特征。3) 分类:使用线性分类器(例如Logistic回归)对提取的特征进行分类,预测参与者是否患有PD。4) 评估:使用AUC、准确率、特异性和敏感性等指标评估模型的性能。
关键创新:论文的关键创新在于:1) 大规模基准测试:构建了一个大规模的视频数据集,并对多种VFMs进行了系统的评估,为远程PD筛查提供了一个可靠的基准。2) 任务依赖性分析:发现不同VFMs在不同临床任务上的表现存在差异,强调了任务选择的重要性。3) 无需微调:通过使用冻结的VFM特征,避免了在小规模临床数据集上微调模型的风险,提高了模型的泛化能力。
关键设计:论文的关键设计包括:1) 数据集构建:收集了包含多种临床任务的视频数据,涵盖了PD患者的多种运动和表达特征。2) 模型选择:选择了具有代表性的VFMs,包括基于Transformer的模型(ViViT, TimeSformer)、自监督学习的模型(V-JEPA, VideoMAE)和多模态模型(VideoPrism)。3) 评估指标:使用了AUC、准确率、特异性和敏感性等多个指标,全面评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同的视频基础模型在不同的临床任务上表现出不同的优势。例如,VideoPrism在捕捉视觉语音运动学和面部表情方面表现出色,而V-JEPA在手臂运动任务中表现更佳。TimeSformer在节律性任务(如手指敲击)中仍然具有竞争力。最佳模型的AUC达到85.3%,准确率达到80.6%,特异性高达90.3%。
🎯 应用场景
该研究成果可应用于远程医疗、智能健康监测等领域,实现帕金森病的早期筛查和诊断。通过视频分析,可以降低筛查成本,提高筛查效率,尤其是在医疗资源匮乏的地区具有重要意义。未来,结合多模态数据(如音频、文本)和个性化模型,有望进一步提升筛查的准确性和可靠性。
📄 摘要(原文)
Remote, video-based assessments offer a scalable pathway for Parkinson's disease (PD) screening. While traditional approaches rely on handcrafted features mimicking clinical scales, recent advances in video foundation models (VFMs) enable representation learning without task-specific customization. However, the comparative effectiveness of different VFM architectures across diverse clinical tasks remains poorly understood. We present a large-scale systematic study using a novel video dataset from 1,888 participants (727 with PD), comprising 32,847 videos across 16 standardized clinical tasks. We evaluate seven state-of-the-art VFMs -- including VideoPrism, V-JEPA, ViViT, and VideoMAE -- to determine their robustness in clinical screening. By evaluating frozen embeddings with a linear classification head, we demonstrate that task saliency is highly model-dependent: VideoPrism excels in capturing visual speech kinematics (no audio) and facial expressivity, while V-JEPA proves superior for upper-limb motor tasks. Notably, TimeSformer remains highly competitive for rhythmic tasks like finger tapping. Our experiments yield AUCs of 76.4-85.3% and accuracies of 71.5-80.6%. While high specificity (up to 90.3%) suggests strong potential for ruling out healthy individuals, the lower sensitivity (43.2-57.3%) highlights the need for task-aware calibration and integration of multiple tasks and modalities. Overall, this work establishes a rigorous baseline for VFM-based PD screening and provides a roadmap for selecting suitable tasks and architectures in remote neurological monitoring. Code and anonymized structured data are publicly available: https://anonymous.4open.science/r/parkinson_video_benchmarking-A2C5