RareAlert: Aligning heterogeneous large language model reasoning for early rare disease risk screening

📄 arXiv: 2601.18132v1 📥 PDF

作者: Xi Chen, Hongru Zhou, Huahui Yi, Shiyu Feng, Hanyu Zhou, Tiancheng He, Mingke You, Li Wang, Qiankun Li, Kun Wang, Weili Fu, Kang Li, Jian Li

分类: cs.AI

发布日期: 2026-01-26

备注: 28 page, 3 figures


💡 一句话要点

RareAlert:对齐异构大语言模型推理,用于罕见病早期风险筛查

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 罕见病筛查 大语言模型 知识蒸馏 医学推理 异构模型对齐

📋 核心要点

  1. 现有初级保健分诊流程不足以可靠识别罕见病患者,导致诊断延迟,亟需更有效的早期筛查手段。
  2. RareAlert通过集成、校准和提炼多个LLM的推理,构建一个准确且可本地部署的罕见病风险预测模型。
  3. 实验表明,RareAlert在RareBench数据集上优于现有机器学习模型和多种大型LLM,AUC达到0.917。

📝 摘要(中文)

罕见病的漏诊和延迟诊断仍然是医疗保健领域的主要挑战。在初步临床就诊时,医生仅凭有限的信息在高不确定性下评估罕见病风险。如果高风险患者在此阶段未被识别,通常不会启动有针对性的诊断测试,导致漏诊。现有的初级保健分诊流程在结构上不足以可靠地识别初次临床表现的罕见病患者,因此需要进行普遍筛查以减少诊断延迟。本文提出了RareAlert,一种早期筛查系统,可从常规可用的初次就诊信息中预测患者级别的罕见病风险。RareAlert集成了十个大语言模型(LLM)生成的推理,使用机器学习校准和加权这些信号,并将对齐的推理提炼成单个本地可部署的模型。为了开发和评估RareAlert,我们整理了RareBench,一个包含158,666个病例的真实世界数据集,涵盖33个Orphanet疾病类别和7,000多种罕见病,包括罕见和非罕见表现。结果表明,罕见病识别可以重新概念化为应用于一般患者群体的普遍不确定性解决过程。在一个独立的测试集上,RareAlert(一个基于Qwen3-4B的模型,使用校准的推理信号进行训练)实现了0.917的AUC,优于最佳机器学习集成和所有评估的LLM,包括GPT-5、DeepSeek-R1、Claude-3.7-Sonnet、o3-mini、Gemini-2.5-Pro和Qwen3-235B。这些发现证明了LLM医学推理的多样性以及对齐此类推理在高度不确定的临床任务中的有效性。通过将校准的推理整合到单个模型中,RareAlert实现了准确、保护隐私和可扩展的罕见病风险筛查,适用于大规模本地部署。

🔬 方法详解

问题定义:该论文旨在解决罕见病早期诊断困难的问题。现有方法,包括传统的初级保健分诊流程和机器学习模型,无法有效识别高风险患者,导致漏诊和延迟诊断。现有方法在高不确定性下表现不佳,且缺乏对多种医学推理的有效整合。

核心思路:论文的核心思路是利用多个大语言模型(LLM)进行医学推理,并对这些异构的推理结果进行校准和对齐,最终提炼成一个高性能的、可本地部署的模型。通过整合多个LLM的知识,可以提高模型在不确定性下的鲁棒性和准确性。

技术框架:RareAlert的技术框架主要包括以下几个阶段:1) 使用十个不同的LLM(如GPT系列、Qwen系列等)对患者的初次就诊信息进行医学推理,生成多个推理信号。2) 使用机器学习方法对这些推理信号进行校准和加权,以减少偏差和提高准确性。3) 将校准后的推理信号作为训练数据,训练一个基于Qwen3-4B的小型模型,实现知识蒸馏。4) 在RareBench数据集上对模型进行评估和优化。

关键创新:该论文的关键创新在于:1) 提出了将多个异构LLM的医学推理进行对齐和整合的方法,有效利用了不同LLM的知识。2) 通过校准和加权推理信号,提高了模型的准确性和鲁棒性。3) 通过知识蒸馏,将大型LLM的知识迁移到小型模型,实现了本地可部署性。

关键设计:在推理信号校准和加权方面,论文可能采用了诸如逻辑回归、支持向量机或神经网络等机器学习模型。损失函数可能包括交叉熵损失或Focal Loss,以解决罕见病数据集中常见的类别不平衡问题。Qwen3-4B模型的选择可能是出于性能和部署成本的考虑,具体参数设置未知。

📊 实验亮点

RareAlert在独立的测试集上实现了0.917的AUC,显著优于最佳机器学习集成模型以及包括GPT-5、DeepSeek-R1、Claude-3.7-Sonnet、o3-mini、Gemini-2.5-Pro和Qwen3-235B在内的多个大型语言模型。这表明通过对齐和校准异构LLM的推理,可以显著提高罕见病风险预测的准确性。

🎯 应用场景

RareAlert可应用于初级保健机构,辅助医生进行罕见病早期风险筛查,减少漏诊和延迟诊断。该系统可大规模本地部署,保护患者隐私,并降低部署成本。未来,该技术可扩展到其他疾病的早期筛查,提高医疗诊断的效率和准确性。

📄 摘要(原文)

Missed and delayed diagnosis remains a major challenge in rare disease care. At the initial clinical encounters, physicians assess rare disease risk using only limited information under high uncertainty. When high-risk patients are not recognised at this stage, targeted diagnostic testing is often not initiated, resulting in missed diagnosis. Existing primary care triage processes are structurally insufficient to reliably identify patients with rare diseases at initial clinical presentation and universal screening is needed to reduce diagnostic delay. Here we present RareAlert, an early screening system which predict patient-level rare disease risk from routinely available primary-visit information. RareAlert integrates reasoning generated by ten LLMs, calibrates and weights these signals using machine learning, and distils the aligned reasoning into a single locally deployable model. To develop and evaluate RareAlert, we curated RareBench, a real-world dataset of 158,666 cases covering 33 Orphanet disease categories and more than 7,000 rare conditions, including both rare and non-rare presentations. The results showed that rare disease identification can be reconceptualised as a universal uncertainty resolution process applied to the general patient population. On an independent test set, RareAlert, a Qwen3-4B based model trained with calibrated reasoning signals, achieved an AUC of 0.917, outperforming the best machine learning ensemble and all evaluated LLMs, including GPT-5, DeepSeek-R1, Claude-3.7-Sonnet, o3-mini, Gemini-2.5-Pro, and Qwen3-235B. These findings demonstrate the diversity in LLM medical reasoning and the effectiveness of aligning such reasoning in highly uncertain clinical tasks. By incorporating calibrated reasoning into a single model, RareAlert enables accurate, privacy-preserving, and scalable rare disease risk screening suitable for large-scale local deployment.