Multimodal Graph-based Classification of Esophageal Motility Disorders
作者: Alexander Geiger, Lars Wagner, Daniel Rueckert, Alois Knoll, Dirk Wilhelm, Alissa Jell
分类: cs.LG
发布日期: 2026-05-13
💡 一句话要点
提出基于多模态图神经网络的食管动力障碍分类方法,提升诊断准确性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 食管动力障碍 高分辨率阻抗测压 图神经网络 多模态融合 机器学习 临床诊断 时空图
📋 核心要点
- 高分辨率阻抗测压数据复杂,临床解释差异大,导致食管动力障碍诊断面临挑战。
- 提出一种多模态机器学习方法,结合HRIM数据、患者信息,并用图建模表示食管生理学。
- 实验表明,该方法优于仅依赖HRIM特征的模型,且图建模优于基于视觉的基线。
📝 摘要(中文)
食管动力障碍的诊断极具挑战性,因为高分辨率阻抗测压(HRIM)数据复杂且临床解释存在差异。本文探索了一种基于多模态机器学习(ML)的分类方法,该方法结合了HRIM记录和患者特定信息,并融入了食管生理学的图建模。我们分析了来自104名食管动力障碍患者的HRIM记录和相应的患者信息,包括人口统计学、临床和症状信息,这些信息通过结构化问卷和自由文本笔记,利用关键词检测和基于大型语言模型的处理提取。HRIM数据表示为时空图,其中节点对应于沿食管的压力值,边编码空间邻接和阻抗动态。应用图神经网络(GNN)学习生理上有意义的表示,并将其与患者嵌入融合,用于吞咽事件的多类别、多分类。通过消融研究和与基于视觉的分类器基线比较,评估了患者特征和基于图建模的影响。所提出的多模态方法表明,在所有分类类别中,相对于仅依赖于HRIM派生特征的模型,性能有所提高。此外,与基于视觉的基线相比,基于图的建模提供了增益。我们的实验系统地评估了多种模态的互补贡献,并证明了我们提出的基于图的方法的可行性。初步结果表明,将患者级别的数据与HRIM信号的基于图的表示相结合,是更准确地分类食管动力障碍的一个有希望的方向。
🔬 方法详解
问题定义:食管动力障碍的准确诊断面临挑战,传统方法依赖于对高分辨率阻抗测压(HRIM)数据的复杂人工解读,主观性强且易出错。现有方法难以有效整合患者的临床信息,并且缺乏对食管生理结构的建模能力,导致诊断精度受限。
核心思路:本文的核心思路是将HRIM数据、患者信息以及食管生理结构进行多模态融合,利用图神经网络(GNN)学习食管动力学的表示,并结合患者的临床信息进行分类。通过图结构建模食管的物理连接和动力学变化,能够更有效地提取HRIM数据中的生理意义,从而提高诊断的准确性。
技术框架:该方法包含以下几个主要阶段:1) 数据预处理:对HRIM数据进行清洗和标准化,并从患者的问卷和自由文本笔记中提取临床信息。2) 图构建:将HRIM数据表示为时空图,节点代表食管上的压力值,边代表空间邻接关系和阻抗动态。3) 特征提取:使用GNN学习图结构中节点的表示,提取生理意义的特征。4) 多模态融合:将GNN提取的特征与患者的临床信息进行融合,形成多模态的特征表示。5) 分类:使用分类器对融合后的特征进行分类,预测食管动力障碍的类型。
关键创新:该方法的关键创新在于:1) 提出了基于图结构的HRIM数据表示方法,能够有效建模食管的物理连接和动力学变化。2) 实现了多模态信息的融合,将HRIM数据、患者信息以及食管生理结构进行整合,提高了诊断的准确性。3) 利用GNN学习图结构中的节点表示,能够自动提取生理意义的特征,避免了人工特征工程的局限性。
关键设计:在图构建方面,节点表示食管上的压力值,边连接相邻的压力传感器,并根据阻抗变化动态调整边的权重。GNN采用多层图卷积网络,学习节点的嵌入表示。损失函数采用交叉熵损失,优化分类器的性能。患者信息通过嵌入层进行编码,然后与GNN提取的特征进行拼接融合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的多模态方法在食管动力障碍分类任务中优于仅依赖HRIM特征的模型。与基于视觉的基线相比,基于图的建模也取得了显著的性能提升。消融实验验证了患者特征和图建模对分类性能的贡献,证明了多模态融合的有效性。具体性能数据在论文中给出,但摘要中未明确提及具体的性能提升幅度。
🎯 应用场景
该研究成果可应用于临床食管动力障碍的辅助诊断,提高诊断效率和准确性,减少误诊率。通过整合患者的临床信息和生理数据,可以为医生提供更全面的诊断依据,辅助制定个性化的治疗方案。未来,该方法有望扩展到其他消化系统疾病的诊断和监测。
📄 摘要(原文)
Diagnosing esophageal motility disorders pose significant challenges due to the complexity of high-resolution impedance manometry (HRIM) data and variability in clinical interpretation. This work explores the feasibility of a multimodal Machine Learning (ML)-based classification approach that combines HRIM recordings with patient-specific information and incorporates a graph-based modeling of esophageal physiology. We analyze HRIM recordings with corresponding patient information from 104 patients with esophageal motility disorders. Patient data includes demographic, clinical, and symptom information extracted from structured questionnaires and free-text notes using keyword detection and large language model-based processing. HRIM data is represented as spatio-temporal graphs, where nodes correspond to pressure values along the esophagus and edges encode spatial adjacency and impedance dynamics. A graph neural network (GNN) is applied to learn physiologically meaningful representations, which are fused with patient embeddings for multi-category, multi-class classification of swallow events. The impact of patient features and graph-based modeling is evaluated by ablation studies and comparison to vision-based classifier baselines. The proposed multimodal approach indicates improvements over models that rely solely on HRIM-derived features across all classification categories. Additionally, the graph-based modeling provides gains compared to vision-based baselines. Our experiments systematically assess the complementary contribution of multiple modalities, as well as demonstrate the feasibility of our proposed graph-based approach. Our initial findings demonstrate that integrating patient-level data with graph-based representations of HRIM signals appears to be a promising direction for more accurate classification of esophageal motility disorders.