Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models

📄 arXiv: 2505.24655v1 📥 PDF

作者: Frederike Lübeck, Jonas Wildberger, Frederik Träuble, Maximilian Mordig, Sergios Gatidis, Andreas Krause, Bernhard Schölkopf

分类: cs.AI, cs.LG

发布日期: 2025-05-30


💡 一句话要点

提出AdaCVD以解决心血管疾病风险预测中的数据异质性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心血管疾病 风险预测 大型语言模型 数据异质性 临床决策支持 机器学习 个性化医疗

📋 核心要点

  1. 现有心血管疾病风险预测模型过于简化患者信息,难以适应真实世界的临床实践。
  2. 提出的AdaCVD框架基于大型语言模型,能够灵活整合多样化的患者信息和数据类型。
  3. 实验结果显示,AdaCVD在各类人群中表现出色,超越了传统风险评分和机器学习方法。

📝 摘要(中文)

心血管疾病(CVD)风险预测模型对于识别高风险个体和指导预防措施至关重要。然而,现有模型在实际临床应用中面临挑战,过于简化患者特征,依赖固定输入模式,并对分布变化敏感。本文开发了AdaCVD,一个基于大型语言模型的适应性CVD风险预测框架,经过对超过50万名UK Biobank参与者的广泛微调。在基准比较中,AdaCVD超越了既有风险评分和标准机器学习方法,达到了最先进的性能。它首次在三个维度上解决了关键临床挑战:灵活整合全面而多变的患者信息;无缝结合结构化数据和非结构化文本;并能在使用最少额外数据的情况下快速适应新患者群体。

🔬 方法详解

问题定义:本文旨在解决心血管疾病风险预测中现有模型的不足,特别是对患者特征的过度简化和对数据分布变化的敏感性。

核心思路:AdaCVD框架通过大型语言模型的微调,灵活整合结构化和非结构化数据,适应不同患者群体的需求。

技术框架:该框架包括数据预处理、模型训练、风险评估和结果输出四个主要模块,能够处理多种数据类型。

关键创新:AdaCVD首次实现了对多样化患者信息的灵活整合,并能在最少数据情况下快速适应新群体,显著提升了模型的适用性。

关键设计:在模型设计中,采用了特定的损失函数以优化风险预测精度,并在网络结构上进行了针对性调整,以提高对非结构化文本的处理能力。

📊 实验亮点

在基准测试中,AdaCVD的性能超越了传统的风险评分和标准机器学习方法,显示出在不同人口统计、社会经济和临床亚组中的稳健表现,尤其是在代表性不足的群体中,展现了显著的提升幅度。

🎯 应用场景

AdaCVD框架的潜在应用领域包括临床决策支持系统、个性化医疗和公共卫生监测。其灵活性和适应性使其能够在动态的医疗环境中提供更精准的风险评估,具有重要的实际价值和未来影响。

📄 摘要(原文)

Cardiovascular disease (CVD) risk prediction models are essential for identifying high-risk individuals and guiding preventive actions. However, existing models struggle with the challenges of real-world clinical practice as they oversimplify patient profiles, rely on rigid input schemas, and are sensitive to distribution shifts. We developed AdaCVD, an adaptable CVD risk prediction framework built on large language models extensively fine-tuned on over half a million participants from the UK Biobank. In benchmark comparisons, AdaCVD surpasses established risk scores and standard machine learning approaches, achieving state-of-the-art performance. Crucially, for the first time, it addresses key clinical challenges across three dimensions: it flexibly incorporates comprehensive yet variable patient information; it seamlessly integrates both structured data and unstructured text; and it rapidly adapts to new patient populations using minimal additional data. In stratified analyses, it demonstrates robust performance across demographic, socioeconomic, and clinical subgroups, including underrepresented cohorts. AdaCVD offers a promising path toward more flexible, AI-driven clinical decision support tools suited to the realities of heterogeneous and dynamic healthcare environments.