Seizure-Semiology-Suite (S3): A Clinically Multimodal Dataset, Benchmark, and Models for Seizure Semiology Understanding

📄 arXiv: 2605.21852v1 📥 PDF

作者: Lina Zhang, Tonmoy Monsoor, Peizheng Li, Jiarui Cui, Xinyi Peng, Chong Han, Prateik Sinha, Siyuan Dai, Jessica Nichole Pasqua, Colin M McCrimmon, Weiting Liu, Hailey Marie Miranda, Bing Hu, Xiangting Wu, Tengyou Xu, Chunhan Li, Jiaye Tian, Jiarui Tang, Detao Ma, Lingye Kong, Junnan Lyu, Jungang Li, Yan Zan, Junhua Huang, Rajarshi Mazumder, Vwani Roychowdhury

分类: cs.CV

发布日期: 2026-05-21

备注: Accepted to ICML 2026 as a Spotlight presentation


💡 一句话要点

提出Seizure-Semiology-Suite数据集与基准,用于评估和提升多模态大模型对癫痫发作症状学的理解能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 癫痫症状学 多模态学习 视频理解 医疗AI 数据集 基准测试 神经符号框架 临床报告生成

📋 核心要点

  1. 现有的多模态大语言模型在通用视频理解方面表现出色,但在理解癫痫发作等病理运动行为方面能力不足。
  2. 构建了包含大量标注的癫痫发作视频数据集,并设计了多任务分层基准,全面评估模型在癫痫症状学理解方面的能力。
  3. 实验表明,针对癫痫的微调能显著提升模型性能,提出的神经符号框架在癫痫分类任务上取得了优异结果。

📝 摘要(中文)

本文提出了Seizure-Semiology-Suite (S3),一个临床数据集和基准,用于细粒度、结构化的癫痫发作症状学理解。该数据集包含438个癫痫发作视频,标注了超过35,000个密集标签,涵盖了20个ILAE定义的症状学特征。基于此数据集,作者提出了一个七任务分层基准,系统地评估多模态大模型从低级视觉感知到时间序列、叙述性报告生成和癫痫诊断的能力。为了对生成的报告进行有临床意义的评估,进一步引入了癫痫发作症状学报告质量指数(Seizure-RQI)。对11个开源多模态大模型的广泛基线测试揭示了在侧向推理、时间定位、症状排序和临床忠实报告方面的系统性弱点。通过癫痫特异性微调可以显著提高各项任务的性能,并且一个两阶段神经符号框架在癫痫与非癫痫发作分类上实现了0.96的F1分数。Seizure-Semiology-Suite为评估安全关键型医疗视频理解中的多模态模型建立了一个严格的基准,并指导开发临床可靠的、领域自适应的多模态智能。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型在理解癫痫发作症状学方面的不足。现有方法在处理非自愿、时空演变的病理运动行为时,缺乏足够的训练数据和评估标准,导致模型在侧向推理、时间定位、症状排序和临床报告生成等方面存在局限性。

核心思路:论文的核心思路是构建一个高质量的癫痫发作视频数据集,并基于此数据集设计一个多任务分层基准,从而系统地评估和提升多模态大模型在癫痫症状学理解方面的能力。通过癫痫特异性微调和神经符号框架,进一步提高模型的性能和临床可靠性。

技术框架:整体框架包含数据收集与标注、基准任务设计、模型评估和微调三个主要阶段。首先,收集癫痫发作视频并进行详细标注,涵盖20个ILAE定义的症状学特征。然后,设计七个分层任务,包括低级视觉感知、时间序列分析、叙述性报告生成和癫痫诊断。最后,使用基准任务评估现有模型,并通过癫痫特异性微调和神经符号框架提升模型性能。

关键创新:论文的关键创新在于构建了首个专门针对癫痫发作症状学理解的大规模多模态数据集和基准。此外,提出的癫痫发作症状学报告质量指数(Seizure-RQI)为临床报告的评估提供了一种新的方法。两阶段神经符号框架的引入,进一步提高了癫痫分类的准确性。

关键设计:数据集包含438个癫痫发作视频,标注了超过35,000个密集标签。七个分层任务的设计涵盖了癫痫症状学理解的各个方面。癫痫特异性微调采用领域相关的预训练和微调策略。神经符号框架结合了深度学习模型和专家知识,以提高分类的准确性和可解释性。Seizure-RQI指标用于评估生成报告的临床相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在11个开源多模态大模型上进行基线测试,发现模型在侧向推理、时间定位等方面存在弱点。通过癫痫特异性微调,模型在各项任务上的性能得到显著提升。提出的神经符号框架在癫痫与非癫痫发作分类上实现了0.96的F1分数,优于现有方法。

🎯 应用场景

该研究成果可应用于辅助癫痫诊断、监测和治疗。通过自动分析癫痫发作视频,医生可以更准确地识别癫痫类型、评估病情严重程度,并制定个性化的治疗方案。此外,该技术还可用于远程医疗和患者自我管理,提高医疗服务的可及性和效率。

📄 摘要(原文)

While Multimodal Large Language Models (MLLMs) have demonstrated remarkable proficiency in general video understanding, their capacity to interpret involuntary, and spatio-temporally evolving pathologic motor behaviors such as seizure semiology remains largely untested. To address this gap, we introduce Seizure-Semiology-Suite, a clinically grounded dataset and benchmark for fine-grained, structured seizure semiology understanding. The dataset includes 438 seizure videos annotated with over 35,000 dense labels covering 20 ILAE-defined semiological features. Building on this dataset, we propose a seven-task hierarchical benchmark that systematically evaluates MLLMs from low-level visual perception to temporal sequencing, narrative report generation, and seizure diagnosis. To enable clinically meaningful evaluation of generated reports, we further introduce the Report Quality Index for Seizure Semiology (Seizure-RQI). Extensive baselines across 11 open-weight MLLMs reveal systematic weaknesses in laterality reasoning, temporal localization, symptom sequencing, and clinically faithful reporting. We show that seizure-specific fine-tuning substantially improves performance across tasks, and that a two-stage neuro-symbolic framework achieves an F1 score of 0.96 on epileptic versus non-epileptic seizure classification. Seizure-Semiology-Suite establishes a rigorous benchmark for evaluating multimodal models in safety-critical medical video understanding and guides the development of clinically reliable, domain-adaptive multimodal intelligence.