EpiScreen: Early Epilepsy Detection from Electronic Health Records with Large Language Models

📄 arXiv: 2603.28698v1 📥 PDF

作者: Shuang Zhou, Kai Yu, Zaifu Zhan, Huixue Zhou, Min Zeng, Feng Xie, Zhiyi Sha, Rui Zhang

分类: cs.CL

发布日期: 2026-03-30

备注: 24 pages, 5 figures, 4 tables


💡 一句话要点

EpiScreen:利用大型语言模型从电子病历中早期检测癫痫

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 癫痫检测 大型语言模型 电子病历 自然语言处理 临床决策支持

📋 核心要点

  1. 癫痫与精神性非癫痫发作症状相似,误诊率高,传统诊断方法成本高、可及性差,导致诊断延迟和不必要的治疗。
  2. EpiScreen利用电子病历中的临床笔记,通过微调大型语言模型,实现低成本、高效的早期癫痫检测。
  3. EpiScreen在MIMIC-IV数据集和明尼苏达大学的私人队列上分别实现了0.875和0.980的AUC,并提升了临床医生诊断准确率。

📝 摘要(中文)

癫痫和精神性非癫痫发作常表现出相似的发作样症状,但需要完全不同的管理策略。误诊很常见,可能导致诊断延迟、不必要的治疗和严重的患者发病率。虽然长时间视频脑电图是诊断的金标准,但其高成本和有限的可及性阻碍了及时诊断。本文开发了一种低成本、有效的方法EpiScreen,通过利用从电子病历中常规收集的临床笔记进行早期癫痫检测。通过在标记的笔记上微调大型语言模型,EpiScreen在MIMIC-IV数据集上实现了高达0.875的AUC,在明尼苏达大学的私人队列上实现了0.980的AUC。在临床医生-AI协作环境中,EpiScreen辅助的神经科医生比未辅助的专家表现高出10.9%。总的来说,这项研究表明EpiScreen支持早期癫痫检测,促进及时且具有成本效益的筛查,从而减少诊断延迟并避免不必要的干预,尤其是在资源有限的地区。

🔬 方法详解

问题定义:该论文旨在解决癫痫早期诊断困难的问题。现有方法,如长时间视频脑电图,成本高昂且不易获取,导致诊断延迟和误诊。此外,癫痫与精神性非癫痫发作症状相似,进一步增加了诊断难度。

核心思路:论文的核心思路是利用大型语言模型(LLM)处理电子病历中的临床笔记,从中提取与癫痫相关的特征,从而实现低成本、高效的早期癫痫检测。这种方法避免了对昂贵设备的依赖,并充分利用了已有的临床数据。

技术框架:EpiScreen的整体框架包括数据预处理、模型微调和预测三个主要阶段。首先,对电子病历中的临床笔记进行清洗和标注。然后,使用标注数据微调预训练的大型语言模型,使其能够识别与癫痫相关的文本模式。最后,使用微调后的模型对新的临床笔记进行预测,输出患者患癫痫的概率。

关键创新:该论文的关键创新在于将大型语言模型应用于癫痫早期检测,并利用电子病历中的非结构化文本数据。与传统的基于结构化数据的机器学习方法相比,该方法能够更好地捕捉临床笔记中的复杂信息,从而提高诊断准确率。

关键设计:论文中使用了预训练的语言模型,并通过微调来适应癫痫检测任务。具体的微调策略和超参数设置(例如学习率、batch size等)对模型的性能有重要影响。此外,如何有效地利用临床医生的知识来标注数据,以及如何设计损失函数来平衡不同类别样本的权重,也是关键的设计考虑。

📊 实验亮点

EpiScreen在MIMIC-IV数据集上取得了0.875的AUC,在明尼苏达大学的私人队列上取得了0.980的AUC。在临床医生-AI协作环境中,EpiScreen辅助的神经科医生比未辅助的专家表现高出10.9%。这些结果表明,EpiScreen能够显著提高癫痫早期检测的准确率和效率。

🎯 应用场景

EpiScreen具有广泛的应用前景,可用于医院、诊所等医疗机构,特别是资源有限的地区,进行大规模的癫痫早期筛查。该系统能够辅助医生进行诊断,减少误诊率,缩短诊断时间,并避免不必要的治疗,从而改善患者的生活质量。未来,EpiScreen可以与其他医疗信息系统集成,实现更智能化的疾病管理。

📄 摘要(原文)

Epilepsy and psychogenic non-epileptic seizures often present with similar seizure-like manifestations but require fundamentally different management strategies. Misdiagnosis is common and can lead to prolonged diagnostic delays, unnecessary treatments, and substantial patient morbidity. Although prolonged video-electroencephalography is the diagnostic gold standard, its high cost and limited accessibility hinder timely diagnosis. Here, we developed a low-cost, effective approach, EpiScreen, for early epilepsy detection by utilizing routinely collected clinical notes from electronic health records. Through fine-tuning large language models on labeled notes, EpiScreen achieved an AUC of up to 0.875 on the MIMIC-IV dataset and 0.980 on a private cohort of the University of Minnesota. In a clinician-AI collaboration setting, EpiScreen-assisted neurologists outperformed unaided experts by up to 10.9%. Overall, this study demonstrates that EpiScreen supports early epilepsy detection, facilitating timely and cost-effective screening that may reduce diagnostic delays and avoid unnecessary interventions, particularly in resource-limited regions.