Revealing Interconnections between Diseases: from Statistical Methods to Large Language Models
作者: Alina Ermilova, Dmitrii Kornilov, Sofia Samoilova, Ekaterina Laptenkova, Anastasia Kolesnikova, Ekaterina Podplutova, Senotrusova Sofya, Maksim G. Sharaev
分类: cs.LG, cs.AI
发布日期: 2025-10-06 (更新: 2025-10-09)
💡 一句话要点
系统评估多种方法揭示疾病关联,发现LLM在疾病新关联发现上潜力有限
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 疾病关联 大型语言模型 电子健康记录 ICD-10代码 医学知识图谱
📋 核心要点
- 现有方法在识别疾病关联时存在劳动密集、主观性强和专家意见不一致等问题,且缺乏疾病关联的“ground truth”。
- 论文系统评估了七种方法,包括统计分析、领域BERT、通用BERT和LLM,利用EHR数据和ICD-10代码,揭示疾病间的潜在关联。
- 实验结果表明,相比其他方法,LLM在发现新的疾病关联方面潜力有限,研究构建的疾病本体可作为未来临床研究的基础资源。
📝 摘要(中文)
通过人工分析大规模临床数据来识别疾病之间的关联既费时费力,又具有主观性,并且容易产生专家意见分歧。机器学习虽然展现出潜力,但仍面临三个关键挑战:(1)从大量的机器学习方法中选择最优方法;(2)确定真实临床数据(如电子健康记录,EHRs)或结构化疾病描述是否能产生更可靠的见解;(3)缺乏“ground truth”,因为医学中一些疾病关联仍未被探索。大型语言模型(LLMs)展示了广泛的用途,但它们通常缺乏专业的医学知识。为了解决这些差距,我们对七种基于两种数据源的方法进行了系统评估,以揭示疾病关系:(i)来自MIMIC-IV EHRs的ICD-10代码序列和(ii)完整的ICD-10代码集,包括带文本描述的和不带文本描述的。我们的框架集成了以下内容:(i)使用真实临床数据的统计共现分析和掩码语言建模(MLM)方法;(ii)领域特定的BERT变体(Med-BERT和BioClinicalBERT);(iii)通用BERT和文档检索;(iv)四个LLM(Mistral、DeepSeek、Qwen和YandexGPT)。我们对获得的互连矩阵进行基于图的比较表明,与其他方法(包括基于文本的和基于领域的方法)相比,基于LLM的方法产生的互连在不同疾病的ICD代码连接方面具有最低的多样性。这表明了一个重要的含义:LLM在发现新的互连方面潜力有限。在缺乏ICD代码之间医学互连的ground truth数据库的情况下,我们的结果构成了一个有价值的医学疾病本体,可以作为未来临床研究和医疗保健领域人工智能应用的基础资源。
🔬 方法详解
问题定义:论文旨在解决疾病关联发现的问题。现有方法,如人工分析临床数据,存在耗时、主观和易出错等问题。机器学习方法虽然有潜力,但面临方法选择、数据源选择(EHR vs. 结构化描述)以及缺乏疾病关联“ground truth”的挑战。
核心思路:论文的核心思路是通过系统性地比较多种方法,包括统计方法、领域特定BERT模型、通用BERT模型以及大型语言模型,来评估它们在疾病关联发现方面的能力。通过对比不同方法在不同数据源上的表现,揭示各种方法的优缺点,并为未来的研究提供指导。
技术框架:整体框架包括数据准备、模型训练和评估三个主要阶段。数据准备阶段包括从MIMIC-IV EHR中提取ICD-10代码序列,以及构建包含文本描述的ICD-10代码集。模型训练阶段包括训练统计共现模型、掩码语言模型、领域特定BERT模型(Med-BERT和BioClinicalBERT)、通用BERT模型以及四个大型语言模型(Mistral、DeepSeek、Qwen和YandexGPT)。评估阶段通过构建疾病关联图,并比较不同方法生成的关联图的结构和多样性,来评估各种方法的性能。
关键创新:论文的关键创新在于对多种疾病关联发现方法进行了系统性的比较和评估,并揭示了大型语言模型在发现新的疾病关联方面的局限性。此外,论文构建的疾病本体可以作为未来研究的基础资源。
关键设计:论文使用了多种技术细节来提高实验的可靠性和有效性。例如,在训练掩码语言模型时,使用了特定的掩码策略来提高模型的性能。在构建疾病关联图时,使用了基于图的比较方法来评估不同方法生成的关联图的结构和多样性。论文还仔细选择了评估指标,以全面评估各种方法的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于LLM的方法在疾病关联发现方面,与其他方法相比,产生的ICD代码连接多样性最低,暗示LLM在发现新的疾病关联方面潜力有限。该研究构建的疾病本体,在缺乏疾病关联“ground truth”的情况下,可作为未来临床研究和人工智能应用的基础资源。
🎯 应用场景
该研究成果可应用于临床决策支持系统,帮助医生更好地理解疾病之间的关联,从而做出更准确的诊断和治疗方案。此外,构建的疾病本体可以作为医学知识图谱的基础,为药物研发、疾病预测等领域提供支持。研究结果对未来医疗人工智能应用具有重要指导意义。
📄 摘要(原文)
Identifying disease interconnections through manual analysis of large-scale clinical data is labor-intensive, subjective, and prone to expert disagreement. While machine learning (ML) shows promise, three critical challenges remain: (1) selecting optimal methods from the vast ML landscape, (2) determining whether real-world clinical data (e.g., electronic health records, EHRs) or structured disease descriptions yield more reliable insights, (3) the lack of "ground truth," as some disease interconnections remain unexplored in medicine. Large language models (LLMs) demonstrate broad utility, yet they often lack specialized medical knowledge. To address these gaps, we conduct a systematic evaluation of seven approaches for uncovering disease relationships based on two data sources: (i) sequences of ICD-10 codes from MIMIC-IV EHRs and (ii) the full set of ICD-10 codes, both with and without textual descriptions. Our framework integrates the following: (i) a statistical co-occurrence analysis and a masked language modeling (MLM) approach using real clinical data; (ii) domain-specific BERT variants (Med-BERT and BioClinicalBERT); (iii) a general-purpose BERT and document retrieval; and (iv) four LLMs (Mistral, DeepSeek, Qwen, and YandexGPT). Our graph-based comparison of the obtained interconnection matrices shows that the LLM-based approach produces interconnections with the lowest diversity of ICD code connections to different diseases compared to other methods, including text-based and domain-based approaches. This suggests an important implication: LLMs have limited potential for discovering new interconnections. In the absence of ground truth databases for medical interconnections between ICD codes, our results constitute a valuable medical disease ontology that can serve as a foundational resource for future clinical research and artificial intelligence applications in healthcare.