Contextual Phenotyping of Pediatric Sepsis Cohort Using Large Language Models

📄 arXiv: 2505.09805v1 📥 PDF

作者: Aditya Nagori, Ayush Gautam, Matthew O. Wiens, Vuong Nguyen, Nathan Kenya Mugisha, Jerome Kabakyenga, Niranjan Kissoon, John Mark Ansermino, Rishikesan Kamaleswaran

分类: q-bio.QM, cs.AI, cs.CL, cs.LG, stat.AP

发布日期: 2025-05-14

备注: 11 pages, 2 Figures, 1 Table


💡 一句话要点

利用大型语言模型进行儿科脓毒症队列的上下文表型分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 聚类分析 上下文表型 儿科脓毒症 医疗数据 低资源环境 K-means聚类

📋 核心要点

  1. 传统聚类方法难以处理高维异构医疗数据,缺乏对患者上下文信息的有效利用。
  2. 将患者记录转化为文本序列,利用大型语言模型生成嵌入,从而捕捉患者的上下文信息。
  3. 实验表明,基于LLM的聚类方法优于传统方法,能够识别具有明显特征的患者亚组,轮廓系数最高达0.86。

📝 摘要(中文)

患者亚组聚类对于个性化护理和高效资源利用至关重要。传统的聚类方法在高维、异构的医疗保健数据中表现不佳,并且缺乏上下文理解。本研究使用来自低收入国家(LIC)的儿科脓毒症数据集评估了基于大型语言模型(LLM)的聚类方法与经典方法,该数据集包含2686条记录,具有28个数值变量和119个分类变量。患者记录被序列化为文本,有无聚类目标。使用量化的LLAMA 3.1 8B、带有低秩适应(LoRA)的DeepSeek-R1-Distill-Llama-8B和Stella-En-400M-V5模型生成嵌入。K-means聚类应用于这些嵌入。经典比较包括对UMAP和FAMD降维的混合数据进行K-Medoids聚类。使用轮廓系数和统计检验评估聚类质量和区分度。Stella-En-400M-V5实现了最高的轮廓系数(0.86)。具有聚类目标的LLAMA 3.1 8B在较高数量的聚类中表现更好,识别出具有不同营养、临床和社会经济特征的亚组。基于LLM的方法通过捕获更丰富的上下文和优先考虑关键特征,优于经典技术。这些结果突出了LLM在资源有限的环境中进行上下文表型分析和知情决策的潜力。

🔬 方法详解

问题定义:本研究旨在解决传统聚类方法在处理高维、异构的医疗数据时,无法有效捕捉患者上下文信息的问题。现有方法,如K-Medoids和基于降维的聚类,难以充分利用患者的临床、营养和社会经济等多方面信息,导致聚类结果不够准确和具有区分度。

核心思路:核心思路是将患者的临床记录转化为文本序列,然后利用大型语言模型(LLM)学习这些文本序列的嵌入表示。LLM能够捕捉文本中的语义信息和上下文关系,从而将患者的各种特征信息编码到嵌入向量中。通过对这些嵌入向量进行聚类,可以实现对患者亚组的更准确和有意义的划分。

技术框架:整体流程包括数据预处理、文本序列化、LLM嵌入生成和聚类四个主要阶段。首先,对原始医疗数据进行清洗和转换。然后,将患者的数值和分类特征序列化为文本。接着,使用预训练的LLM(如LLAMA 3.1 8B、DeepSeek-R1-Distill-Llama-8B和Stella-En-400M-V5)生成文本嵌入。最后,使用K-means算法对这些嵌入进行聚类,并使用轮廓系数等指标评估聚类效果。

关键创新:最重要的创新点在于利用LLM进行患者的上下文表型分析。与传统方法相比,LLM能够更好地捕捉患者记录中的复杂关系和上下文信息,从而生成更具代表性的嵌入表示。此外,研究还探索了在LLM训练中加入聚类目标,以进一步提高聚类效果。

关键设计:研究中使用了多种LLM模型,包括量化的LLAMA 3.1 8B、带有LoRA的DeepSeek-R1-Distill-Llama-8B和Stella-En-400M-V5。这些模型在规模和架构上有所不同,可以比较不同LLM在上下文表型分析中的表现。此外,研究还探索了不同的文本序列化方法和聚类参数设置,以优化聚类效果。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,基于LLM的聚类方法优于传统的K-Medoids聚类方法。其中,Stella-En-400M-V5模型取得了最高的轮廓系数,达到0.86。带有聚类目标的LLAMA 3.1 8B模型在较高数量的聚类中表现更好,能够识别出具有不同营养、临床和社会经济特征的患者亚组。这些结果表明,LLM能够有效地捕捉患者的上下文信息,从而提高聚类效果。

🎯 应用场景

该研究成果可应用于临床决策支持、个性化医疗和资源优化配置。通过识别具有不同特征的患者亚组,医生可以制定更具针对性的治疗方案。在资源有限的环境中,该方法可以帮助优化医疗资源的分配,提高医疗效率。未来,该方法可以扩展到其他疾病的表型分析,为精准医疗提供更强大的支持。

📄 摘要(原文)

Clustering patient subgroups is essential for personalized care and efficient resource use. Traditional clustering methods struggle with high-dimensional, heterogeneous healthcare data and lack contextual understanding. This study evaluates Large Language Model (LLM) based clustering against classical methods using a pediatric sepsis dataset from a low-income country (LIC), containing 2,686 records with 28 numerical and 119 categorical variables. Patient records were serialized into text with and without a clustering objective. Embeddings were generated using quantized LLAMA 3.1 8B, DeepSeek-R1-Distill-Llama-8B with low-rank adaptation(LoRA), and Stella-En-400M-V5 models. K-means clustering was applied to these embeddings. Classical comparisons included K-Medoids clustering on UMAP and FAMD-reduced mixed data. Silhouette scores and statistical tests evaluated cluster quality and distinctiveness. Stella-En-400M-V5 achieved the highest Silhouette Score (0.86). LLAMA 3.1 8B with the clustering objective performed better with higher number of clusters, identifying subgroups with distinct nutritional, clinical, and socioeconomic profiles. LLM-based methods outperformed classical techniques by capturing richer context and prioritizing key features. These results highlight potential of LLMs for contextual phenotyping and informed decision-making in resource-limited settings.