Evaluating Large Language Models on Rare Disease Diagnosis: A Case Study using House M.D

📄 arXiv: 2511.10912v1 📥 PDF

作者: Arsh Gupta, Ajay Narayanan Sridhar, Bonam Mingole, Amulya Yadav

分类: cs.CL, cs.AI

发布日期: 2025-11-14


💡 一句话要点

利用《豪斯医生》数据集评估大型语言模型在罕见病诊断中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 罕见病诊断 医学叙事推理 数据集构建 AI辅助诊断

📋 核心要点

  1. 现有大型语言模型在罕见病诊断方面能力不足,缺乏针对性评估和数据集。
  2. 构建《豪斯医生》症状-诊断数据集,评估多个LLM在叙事医学推理中的表现。
  3. 实验结果表明,新一代模型性能提升显著,但仍面临挑战,为未来研究提供基准。

📝 摘要(中文)

大型语言模型(LLMs)在各个领域都展现了强大的能力,但它们在基于叙事医学案例进行罕见病诊断方面的表现仍未得到充分探索。本文引入了一个新的数据集,该数据集包含从医学电视剧《豪斯医生》中提取的176个症状-诊断对,该剧集已被验证可用于医学教育中罕见病识别的教学。我们评估了四个最先进的LLM,如GPT 4o mini、GPT 5 mini、Gemini 2.5 Flash和Gemini 2.5 Pro在基于叙事的诊断推理任务中的表现。结果表明,性能存在显著差异,准确率从16.48%到38.64%不等,新一代模型性能提高了2.3倍。虽然所有模型在罕见病诊断方面都面临着巨大的挑战,但观察到的跨架构的改进表明了未来发展的有希望的方向。我们经过教育验证的基准建立了叙事医学推理的基线性能指标,并为推进人工智能辅助诊断研究提供了一个公开可用的评估框架。

🔬 方法详解

问题定义:论文旨在评估大型语言模型在罕见病诊断方面的能力。现有方法缺乏针对罕见病诊断的专门评估,并且缺乏高质量的医学叙事数据集。这使得难以了解LLM在处理复杂医学案例和进行准确诊断方面的真实能力。

核心思路:论文的核心思路是利用医学电视剧《豪斯医生》构建一个包含症状-诊断对的数据集,并使用该数据集来评估多个最先进的LLM在基于叙事的诊断推理任务中的表现。通过这种方式,可以更准确地了解LLM在处理真实医学案例方面的能力,并为未来的研究提供一个基准。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 从《豪斯医生》电视剧中提取症状-诊断对,构建数据集。2) 选择多个最先进的LLM进行评估,包括GPT 4o mini、GPT 5 mini、Gemini 2.5 Flash和Gemini 2.5 Pro。3) 设计基于叙事的诊断推理任务,并使用数据集对LLM进行评估。4) 分析实验结果,比较不同LLM的性能,并总结经验教训。

关键创新:该研究的关键创新点在于构建了一个新的、经过教育验证的罕见病诊断数据集,该数据集基于医学电视剧《豪斯医生》。该数据集的特点是包含真实的医学叙事案例,并且已经过医学教育领域的验证,可以用于教学罕见病识别。此外,该研究还对多个最先进的LLM进行了全面的评估,并提供了详细的性能数据和分析。

关键设计:论文的关键设计包括:1) 数据集的构建过程,包括如何从电视剧中提取症状-诊断对,以及如何对数据进行清洗和标注。2) 评估任务的设计,包括如何将医学叙事案例转化为LLM可以处理的输入格式,以及如何评估LLM的诊断结果。3) 实验的设置,包括如何选择合适的LLM,以及如何设置实验参数。

📊 实验亮点

实验结果表明,不同LLM在罕见病诊断任务上的性能差异显著,准确率从16.48%到38.64%不等。新一代模型(如GPT 5 mini和Gemini 2.5 Pro)相比旧模型性能提升了2.3倍,但整体性能仍有待提高。该研究为未来LLM在医学诊断领域的应用提供了基准。

🎯 应用场景

该研究成果可应用于开发AI辅助诊断系统,辅助医生进行罕见病诊断,提高诊断效率和准确性。该数据集和评估框架可促进医学人工智能研究,推动LLM在医疗领域的应用,并为医学教育提供新的教学资源。

📄 摘要(原文)

Large language models (LLMs) have demonstrated capabilities across diverse domains, yet their performance on rare disease diagnosis from narrative medical cases remains underexplored. We introduce a novel dataset of 176 symptom-diagnosis pairs extracted from House M.D., a medical television series validated for teaching rare disease recognition in medical education. We evaluate four state-of-the-art LLMs such as GPT 4o mini, GPT 5 mini, Gemini 2.5 Flash, and Gemini 2.5 Pro on narrative-based diagnostic reasoning tasks. Results show significant variation in performance, ranging from 16.48% to 38.64% accuracy, with newer model generations demonstrating a 2.3 times improvement. While all models face substantial challenges with rare disease diagnosis, the observed improvement across architectures suggests promising directions for future development. Our educationally validated benchmark establishes baseline performance metrics for narrative medical reasoning and provides a publicly accessible evaluation framework for advancing AI-assisted diagnosis research.