Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease

作者: Elliot Schumacher, Dhruv Naik, Anitha Kannan

分类: cs.CL, cs.AI

发布日期: 2025-02-20

💡 一句话要点

RareScale：结合专家系统与大语言模型，提升罕见病诊断准确率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 罕见病诊断 大型语言模型 专家系统 临床决策支持 数据增强

📋 核心要点

现有大语言模型在罕见病诊断方面表现不足，限制了其在临床决策支持系统中的应用。
RareScale结合专家系统与大语言模型，先生成候选疾病，再由LLM进行最终诊断。
实验表明，RareScale在575种罕见病诊断中，Top-5准确率提升超过17%，候选生成准确率达88.8%。

📝 摘要（中文）

大型语言模型（LLM）在疾病诊断方面展现了令人印象深刻的能力。然而，它们在识别罕见病方面的有效性仍然是一个悬而未决的问题，因为罕见病本身就更难诊断。随着LLM在医疗保健环境中使用的增加，罕见病诊断的性能至关重要。本文提出了RareScale，将LLM的知识与专家系统相结合。我们联合使用专家系统和LLM来模拟罕见病聊天记录。这些数据用于训练罕见病候选预测模型。然后，来自这个较小模型的候选结果被用作黑盒LLM的额外输入，以进行最终的鉴别诊断。因此，RareScale实现了罕见病和常见病诊断之间的平衡。我们展示了超过575种罕见疾病的结果，从腹部放线菌病到威尔逊病。我们的方法显著提高了黑盒LLM的基线性能，Top-5准确率提高了17%以上。我们还发现我们的候选生成性能很高（例如，在gpt-4o生成的聊天记录中为88.8%）。

🔬 方法详解

问题定义：现有的大语言模型在罕见病诊断方面表现不佳，主要原因是罕见病数据稀缺，模型难以学习到足够的知识。此外，直接使用大语言模型进行罕见病诊断，计算成本高昂，且容易受到常见病的影响，导致诊断偏差。因此，如何提高大语言模型在罕见病诊断中的准确率和效率，是一个亟待解决的问题。

核心思路：RareScale的核心思路是将专家系统的知识与大语言模型的推理能力相结合。首先，利用专家系统和LLM生成模拟的罕见病聊天记录，扩充训练数据。然后，训练一个小型模型来预测候选疾病，缩小搜索范围。最后，将候选疾病作为额外输入，提供给黑盒LLM进行最终诊断，从而提高诊断准确率和效率。

技术框架：RareScale的整体框架包含以下几个主要模块：1) 数据生成模块：联合使用专家系统和LLM，生成模拟的罕见病聊天记录。2) 候选预测模块：使用生成的数据训练一个小型模型，预测候选疾病。3) 诊断模块：将候选疾病作为额外输入，提供给黑盒LLM进行最终诊断。整个流程旨在利用专家系统的知识引导LLM，提高罕见病诊断的准确率。

关键创新：RareScale的关键创新在于将专家系统和LLM相结合，用于罕见病诊断。与直接使用LLM进行诊断相比，RareScale利用专家系统生成数据，扩充了训练集，并使用小型模型预测候选疾病，缩小了搜索范围，从而提高了诊断准确率和效率。此外，RareScale采用黑盒LLM，无需对LLM进行微调，降低了使用成本。

关键设计：在数据生成模块中，需要设计合适的提示词，引导LLM生成高质量的罕见病聊天记录。在候选预测模块中，可以选择合适的模型结构和损失函数，提高候选疾病的预测准确率。在诊断模块中，需要设计合适的输入格式，将候选疾病信息有效地传递给黑盒LLM。具体的参数设置和网络结构等技术细节，需要根据实际情况进行调整和优化。

🖼️ 关键图片

📊 实验亮点

RareScale在超过575种罕见病诊断中，Top-5准确率相比黑盒LLM基线提高了17%以上。在gpt-4o生成的聊天记录中，候选生成准确率高达88.8%。这些结果表明，RareScale能够有效地提高大语言模型在罕见病诊断中的准确率和效率，具有重要的临床应用价值。

🎯 应用场景

RareScale可应用于临床决策支持系统，辅助医生进行罕见病诊断，尤其是在基层医疗机构，可以帮助医生快速缩小诊断范围，提高诊断效率。此外，该方法还可以应用于医学教育和研究，为医学生和研究人员提供罕见病知识和诊断工具。未来，RareScale有望整合更多医学知识和数据，构建更强大的罕见病诊断平台。

📄 摘要（原文）

Large language models (LLMs) have demonstrated impressive capabilities in disease diagnosis. However, their effectiveness in identifying rarer diseases, which are inherently more challenging to diagnose, remains an open question. Rare disease performance is critical with the increasing use of LLMs in healthcare settings. This is especially true if a primary care physician needs to make a rarer prognosis from only a patient conversation so that they can take the appropriate next step. To that end, several clinical decision support systems are designed to support providers in rare disease identification. Yet their utility is limited due to their lack of knowledge of common disorders and difficulty of use. In this paper, we propose RareScale to combine the knowledge LLMs with expert systems. We use jointly use an expert system and LLM to simulate rare disease chats. This data is used to train a rare disease candidate predictor model. Candidates from this smaller model are then used as additional inputs to black-box LLM to make the final differential diagnosis. Thus, RareScale allows for a balance between rare and common diagnoses. We present results on over 575 rare diseases, beginning with Abdominal Actinomycosis and ending with Wilson's Disease. Our approach significantly improves the baseline performance of black-box LLMs by over 17% in Top-5 accuracy. We also find that our candidate generation performance is high (e.g. 88.8% on gpt-4o generated chats).

Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理