Accessible, At-Home Detection of Parkinson's Disease via Multi-task Video Analysis

📄 arXiv: 2406.14856v5 📥 PDF

作者: Md Saiful Islam, Tariq Adnan, Jan Freyberg, Sangwu Lee, Abdelrahman Abdelkader, Meghan Pawlik, Cathe Schwartz, Karen Jaffe, Ruth B. Schneider, E Ray Dorsey, Ehsan Hoque

分类: cs.CV, cs.HC, cs.LG

发布日期: 2024-06-21 (更新: 2025-04-26)


💡 一句话要点

提出不确定性校准融合网络UFNet,用于家庭场景下帕金森病的辅助检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 帕金森病检测 多模态融合 不确定性量化 视频分析 深度学习

📋 核心要点

  1. 现有帕金森病检测方法主要依赖单模态数据,忽略了疾病的多方面性,限制了诊断的准确性和全面性。
  2. 提出不确定性校准融合网络UFNet,利用多任务视频数据,通过任务特定网络和自注意力融合,提升诊断精度。
  3. 实验表明,UFNet显著优于单任务模型,在准确率、AUROC和灵敏度方面均有提升,且对特定年龄段人群效果更佳。

📝 摘要(中文)

由于神经系统护理的可及性有限,帕金森病(PD)的诊断不足,阻碍了早期干预。现有的基于人工智能的PD检测方法主要集中于运动或语音任务的单模态分析,忽略了该疾病的多方面性。为了解决这个问题,我们引入了一个大规模的多任务视频数据集,包含来自845名参与者的1102个会话(每个会话包含通过网络摄像头捕获的手指敲击、面部表情和语音任务的视频),其中272名患有PD。我们提出了一种新的不确定性校准融合网络(UFNet),该网络利用这种多模态数据来提高诊断准确性。UFNet采用独立的任务特定网络,通过蒙特卡洛Dropout进行训练以量化不确定性,然后进行特征的自注意力融合,注意力权重根据任务特定的不确定性动态调整。为了确保以患者为中心的评估,参与者被随机分为三组:60%用于训练,20%用于模型选择,20%用于最终性能评估。UFNet在准确率、ROC曲线下面积(AUROC)和灵敏度方面显著优于单任务模型,同时保持了非劣效的特异性。在牺牲了2.3+-0.3%的数据无法预测的情况下,抑制不确定预测进一步提高了性能,达到了88.0+-0.3%的准确率,93.0+-0.2%的AUROC,79.3+-0.9%的灵敏度和92.6+-0.3%的特异性(+-表示95%置信区间)。进一步的分析表明,训练后的模型在性别和种族亚组中没有表现出任何可检测到的偏差,并且对于50至80岁之间的人最有效。我们的方法仅需要网络摄像头和麦克风,有助于在医疗资源有限的地区进行可访问的家庭PD筛查。

🔬 方法详解

问题定义:论文旨在解决帕金森病早期诊断不足的问题,现有方法主要依赖于单模态数据分析,如运动或语音,无法充分捕捉疾病的复杂性。此外,神经科护理的可及性有限,尤其是在医疗资源匮乏的地区,导致许多患者无法及时获得诊断和治疗。

核心思路:论文的核心思路是利用多模态视频数据,包括手指敲击、面部表情和语音,通过融合不同任务的信息来提高诊断准确性。同时,通过量化模型预测的不确定性,可以进一步提高诊断的可靠性,并减少误诊的可能性。这种方法旨在实现可及的家庭式帕金森病筛查。

技术框架:UFNet的整体架构包括以下几个主要模块:1) 任务特定网络:针对每个任务(手指敲击、面部表情、语音)训练独立的深度学习模型。2) 不确定性量化:在训练过程中使用Monte Carlo Dropout来估计每个任务预测的不确定性。3) 自注意力融合:将不同任务的特征进行融合,使用自注意力机制动态调整每个任务的权重,权重大小取决于任务特定的不确定性。4) 预测抑制:对于不确定性较高的预测,选择不进行预测,以提高整体的诊断准确性。

关键创新:UFNet的关键创新在于:1) 多模态融合:同时利用视频中的运动、表情和语音信息,更全面地捕捉帕金森病的特征。2) 不确定性校准:通过量化模型预测的不确定性,并将其用于调整融合权重和抑制不确定预测,提高了诊断的可靠性。3) 家庭可及性:仅需网络摄像头和麦克风,降低了诊断的门槛,方便患者在家进行初步筛查。

关键设计:UFNet的关键设计包括:1) Monte Carlo Dropout:在训练过程中随机dropout神经元,多次采样得到预测结果,计算方差作为不确定性的估计。2) 自注意力机制:使用Transformer中的自注意力模块,学习不同任务特征之间的关系,并根据不确定性动态调整权重。3) 损失函数:使用交叉熵损失函数训练每个任务特定网络,并可能结合其他正则化项来提高模型的泛化能力。4) 数据集划分:将数据集随机分为训练集(60%)、模型选择集(20%)和测试集(20%),确保评估的客观性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UFNet在帕金森病检测中表现出色,显著优于单任务模型。在抑制不确定预测后,UFNet达到了88.0+-0.3%的准确率,93.0+-0.2%的AUROC,79.3+-0.9%的灵敏度和92.6+-0.3%的特异性。此外,模型在性别和种族亚组中没有表现出明显的偏差,并且对于50至80岁之间的人群效果最佳。

🎯 应用场景

该研究成果可应用于远程医疗、家庭健康监测等领域,尤其是在医疗资源匮乏的地区,能够为帕金森病患者提供便捷、经济的初步筛查手段。通过早期发现潜在患者,有助于及时进行干预治疗,延缓病情发展,提高患者的生活质量。未来,该技术有望集成到智能手机或智能家居设备中,实现更广泛的应用。

📄 摘要(原文)

Limited accessibility to neurological care leads to underdiagnosed Parkinson's Disease (PD), preventing early intervention. Existing AI-based PD detection methods primarily focus on unimodal analysis of motor or speech tasks, overlooking the multifaceted nature of the disease. To address this, we introduce a large-scale, multi-task video dataset consisting of 1102 sessions (each containing videos of finger tapping, facial expression, and speech tasks captured via webcam) from 845 participants (272 with PD). We propose a novel Uncertainty-calibrated Fusion Network (UFNet) that leverages this multimodal data to enhance diagnostic accuracy. UFNet employs independent task-specific networks, trained with Monte Carlo Dropout for uncertainty quantification, followed by self-attended fusion of features, with attention weights dynamically adjusted based on task-specific uncertainties. To ensure patient-centered evaluation, the participants were randomly split into three sets: 60% for training, 20% for model selection, and 20% for final performance evaluation. UFNet significantly outperformed single-task models in terms of accuracy, area under the ROC curve (AUROC), and sensitivity while maintaining non-inferior specificity. Withholding uncertain predictions further boosted the performance, achieving 88.0+-0.3%$ accuracy, 93.0+-0.2% AUROC, 79.3+-0.9% sensitivity, and 92.6+-0.3% specificity, at the expense of not being able to predict for 2.3+-0.3% data (+- denotes 95% confidence interval). Further analysis suggests that the trained model does not exhibit any detectable bias across sex and ethnic subgroups and is most effective for individuals aged between 50 and 80. Requiring only a webcam and microphone, our approach facilitates accessible home-based PD screening, especially in regions with limited healthcare resources.