AD-CARE: A Guideline-grounded, Modality-agnostic LLM Agent for Real-world Alzheimer's Disease Diagnosis with Multi-cohort Assessment, Fairness Analysis, and Reader Study

📄 arXiv: 2603.25322v1 📥 PDF

作者: Wenlong Hou, Sheng Bi, Guangqian Yang, Lihao Liu, Ye Du, Hanxiao Xue, Juncheng Wang, Yuxiang Feng, Yue Xun, Nanxi Yu, Ning Mao, Mo Yang, Yi Wah Eva Cheung, Ling Long, Kay Chen Tan, Lequan Yu, Xiaomeng Ma, Shaozhen Yan, Shujun Wang

分类: cs.MA, cs.AI

发布日期: 2026-03-26


💡 一句话要点

AD-CARE:基于指南、模态无关的LLM智能体,用于真实世界阿尔茨海默病诊断

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿尔茨海默病诊断 大型语言模型 多模态学习 临床决策支持 模态无关 指南驱动 智能体 公平性分析

📋 核心要点

  1. 真实世界阿尔茨海默病诊断面临数据异构、模态缺失等挑战,现有方法难以有效整合多源信息。
  2. AD-CARE通过动态编排诊断工具和嵌入临床指南,实现模态无关的诊断评估,生成透明的报告式输出。
  3. 实验表明,AD-CARE在多个队列中显著提升诊断准确率,减少了不同人群的性能差异,并辅助医生决策。

📝 摘要(中文)

随着人口老龄化,阿尔茨海默病(AD)已成为日益严重的全球健康挑战,及时准确的诊断对于减轻个人和社会负担至关重要。然而,真实世界的AD评估受到不完整、异构的多模态数据以及不同中心和患者人群的差异性的阻碍。尽管大型语言模型(LLM)在生物医学领域展现出潜力,但它们在AD中的应用主要局限于回答狭窄的、疾病特定的问题,而不是生成支持临床决策的综合诊断报告。本文提出了AD-CARE,一种模态无关的智能体,通过动态编排专门的诊断工具并将临床指南嵌入到LLM驱动的推理中,从不完整、异构的输入中执行基于指南的诊断评估,而无需填补缺失的模态。AD-CARE生成透明的、报告式的输出,与真实世界的临床工作流程保持一致。在包含10303个病例的六个队列中,AD-CARE实现了84.9%的诊断准确率,相对于基线方法提高了4.2%-13.7%。尽管存在队列级别的差异,但数据集特定的准确率仍然保持稳健(80.4%-98.8%),并且该智能体始终优于所有基线。AD-CARE减少了种族和年龄亚组之间的性能差异,分别将四个指标的平均离散度降低了21%-68%和28%-51%。在一项受控的读者研究中,该智能体将神经科医生和放射科医生的准确率分别提高了6%-11%,并将决策时间缩短了一半以上。该框架在八个骨干LLM上产生了2.29%-10.66%的绝对收益,并收敛了它们的性能。这些结果表明,AD-CARE是一个可扩展的、可实际部署的框架,可以集成到常规临床工作流程中,用于AD的多模态决策支持。

🔬 方法详解

问题定义:阿尔茨海默病(AD)的诊断面临真实世界数据的不完整性和异构性问题,包括不同模态数据的缺失以及不同中心和患者人群的差异。现有方法通常需要进行数据插补或依赖于特定模态,限制了其在实际临床环境中的应用。此外,现有的大型语言模型(LLM)在AD领域的应用主要集中在回答特定问题,缺乏生成综合诊断报告的能力,无法有效支持临床决策。

核心思路:AD-CARE的核心思路是构建一个模态无关的LLM智能体,该智能体能够利用不完整、异构的多模态数据,并结合临床指南进行诊断评估。通过动态编排专门的诊断工具,并将临床指南嵌入到LLM驱动的推理过程中,AD-CARE能够生成透明、报告式的诊断结果,从而支持临床决策。这种设计避免了对缺失模态进行插补的需求,提高了模型的鲁棒性和泛化能力。

技术框架:AD-CARE的整体框架包括以下几个主要模块:(1) 数据输入模块:接收来自不同来源和模态的患者数据,包括临床记录、影像学数据等。(2) 诊断工具编排模块:根据可用的数据模态和临床指南,动态选择合适的诊断工具。(3) LLM推理模块:利用大型语言模型进行推理,生成诊断报告。(4) 临床指南嵌入模块:将临床指南嵌入到LLM的推理过程中,确保诊断结果符合临床标准。(5) 输出模块:生成透明、报告式的诊断结果,供临床医生参考。

关键创新:AD-CARE最重要的技术创新点在于其模态无关性和指南驱动的诊断评估方法。与现有方法相比,AD-CARE不需要对缺失模态进行插补,能够直接利用不完整的数据进行诊断。此外,通过将临床指南嵌入到LLM的推理过程中,AD-CARE能够生成符合临床标准的诊断结果,提高了诊断的可靠性和可解释性。

关键设计:AD-CARE的关键设计包括:(1) 动态诊断工具编排策略:根据可用的数据模态和临床指南,动态选择合适的诊断工具,例如认知测试、影像学分析等。(2) 临床指南嵌入方法:将临床指南转化为LLM可以理解的格式,例如自然语言描述或规则,并将其嵌入到LLM的推理过程中。(3) 报告生成策略:设计清晰、易懂的报告格式,包括诊断结论、依据和建议,方便临床医生参考。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AD-CARE在六个队列共10303个病例上实现了84.9%的诊断准确率,相比基线方法提升了4.2%-13.7%。在种族和年龄亚组上,性能差异分别降低了21%-68%和28%-51%。在一项读者研究中,神经科医生和放射科医生的诊断准确率分别提升了6%-11%,决策时间缩短了一半以上。该框架在八个骨干LLM上产生了2.29%-10.66%的绝对收益。

🎯 应用场景

AD-CARE具有广泛的应用前景,可用于临床辅助诊断、远程医疗、患者风险评估等领域。该研究成果有助于提高阿尔茨海默病的早期诊断率,改善患者的治疗效果,并降低医疗成本。未来,AD-CARE有望成为临床医生在阿尔茨海默病诊断中的重要工具,为患者提供更精准、个性化的医疗服务。

📄 摘要(原文)

Alzheimer's disease (AD) is a growing global health challenge as populations age, and timely, accurate diagnosis is essential to reduce individual and societal burden. However, real-world AD assessment is hampered by incomplete, heterogeneous multimodal data and variability across sites and patient demographics. Although large language models (LLMs) have shown promise in biomedicine, their use in AD has largely been confined to answering narrow, disease-specific questions rather than generating comprehensive diagnostic reports that support clinical decision-making. Here we expand LLM capabilities for clinical decision support by introducing AD-CARE, a modality-agnostic agent that performs guideline-grounded diagnostic assessment from incomplete, heterogeneous inputs without imputing missing modalities. By dynamically orchestrating specialized diagnostic tools and embedding clinical guidelines into LLM-driven reasoning, AD-CARE generates transparent, report-style outputs aligned with real-world clinical workflows. Across six cohorts comprising 10,303 cases, AD-CARE achieved 84.9% diagnostic accuracy, delivering 4.2%-13.7% relative improvements over baseline methods. Despite cohort-level differences, dataset-specific accuracies remain robust (80.4%-98.8%), and the agent consistently outperforms all baselines. AD-CARE reduced performance disparities across racial and age subgroups, decreasing the average dispersion of four metrics by 21%-68% and 28%-51%, respectively. In a controlled reader study, the agent improved neurologist and radiologist accuracy by 6%-11% and more than halved decision time. The framework yielded 2.29%-10.66% absolute gains over eight backbone LLMs and converges their performance. These results show that AD-CARE is a scalable, practically deployable framework that can be integrated into routine clinical workflows for multimodal decision support in AD.