DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models

作者: Yakun Zhu, Zhongzhen Huang, Linjie Mu, Yutong Huang, Wei Nie, Jiaji Liu, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang

分类: cs.CL, cs.AI

发布日期: 2025-05-20 (更新: 2025-05-29)

🔗 代码/项目: GITHUB

💡 一句话要点

DiagnosisArena：构建诊断推理基准，评估大型语言模型在医疗诊断中的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 医疗诊断 诊断推理 基准数据集 临床病例

📋 核心要点

现有医学基准在评估高级诊断推理方面存在局限性，无法充分测试大型语言模型的临床诊断能力。
DiagnosisArena通过构建包含多专科、高质量临床病例的基准数据集，系统性地评估LLM的诊断推理能力。
实验结果表明，即使是最先进的LLM在DiagnosisArena上的表现也远低于预期，揭示了其泛化能力的瓶颈。

📝 摘要（中文）

本文提出了DiagnosisArena，一个全面且具有挑战性的基准，旨在严格评估大型语言模型在专业级别的诊断能力。该基准包含1113对分割的患者病例和相应的诊断，涵盖28个医学专科，数据来源于10个顶级医学期刊上发表的临床病例报告。DiagnosisArena通过严谨的构建流程开发，包括AI系统和人类专家的多轮筛选和审查，并进行彻底的检查以防止数据泄露。研究表明，即使是最先进的推理模型，如o3、o1和DeepSeek-R1，准确率分别仅为51.12%、31.09%和17.79%。这突显了当前大型语言模型在面临临床诊断推理挑战时存在显著的泛化瓶颈。DiagnosisArena旨在推动AI诊断推理能力的进一步发展，从而为现实世界的临床诊断挑战提供更有效的解决方案。作者提供了基准和评估工具，以供进一步研究和开发。

🔬 方法详解

问题定义：论文旨在解决现有医学基准无法充分评估大型语言模型（LLM）在复杂临床场景下的诊断推理能力的问题。现有医学基准通常缺乏足够的多样性、复杂性和专业性，难以真实反映临床诊断的挑战，也无法有效衡量LLM在实际医疗应用中的潜力。

核心思路：论文的核心思路是构建一个高质量、多专科的临床诊断基准数据集，即DiagnosisArena，用于系统性地评估LLM的诊断推理能力。通过精细的数据筛选、专家审核和防泄露措施，确保基准的可靠性和挑战性，从而推动LLM在医疗诊断领域的进一步发展。

技术框架：DiagnosisArena的构建流程主要包括以下几个阶段：1) 数据收集：从10个顶级医学期刊收集临床病例报告。2) 数据分割：将病例报告分割成患者病例和相应的诊断。3) 数据筛选：通过AI系统和人类专家进行多轮筛选，确保病例的质量和相关性。4) 数据审查：由医学专家对筛选后的病例进行审查，验证诊断的准确性和完整性。5) 防泄露检查：进行彻底的检查，防止训练数据泄露到测试集中。

关键创新：DiagnosisArena的关键创新在于其构建流程的严谨性和数据集的多样性。通过多轮筛选和专家审核，确保了数据的质量和专业性。同时，涵盖28个医学专科的病例，使得基准能够全面评估LLM在不同临床场景下的诊断能力。此外，严格的防泄露措施保证了评估的公平性和可靠性。

关键设计：DiagnosisArena的关键设计包括：1) 病例选择标准：选择具有明确诊断和完整病史的病例。2) 专家审核流程：由具有丰富临床经验的医学专家进行审核，确保诊断的准确性和合理性。3) 防泄露策略：采用多种技术手段，如模糊化处理和数据去重，防止训练数据泄露。4) 评估指标：采用准确率作为主要评估指标，衡量LLM诊断的正确率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的LLM，如o3、o1和DeepSeek-R1，在DiagnosisArena上的准确率分别仅为51.12%、31.09%和17.79%。这些结果远低于人类专家的水平，突显了当前LLM在临床诊断推理方面存在的显著泛化瓶颈，表明该领域仍有巨大的提升空间。

🎯 应用场景

DiagnosisArena可用于评估和提升大型语言模型在医疗诊断领域的应用能力。通过该基准，研究人员可以系统地测试和改进LLM的诊断推理能力，从而开发出更可靠、更有效的AI辅助诊断工具，辅助医生进行疾病诊断，提高诊断效率和准确性，最终改善患者的治疗效果。

📄 摘要（原文）

The emergence of groundbreaking large language models capable of performing complex reasoning tasks holds significant promise for addressing various scientific challenges, including those arising in complex clinical scenarios. To enable their safe and effective deployment in real-world healthcare settings, it is urgently necessary to benchmark the diagnostic capabilities of current models systematically. Given the limitations of existing medical benchmarks in evaluating advanced diagnostic reasoning, we present DiagnosisArena, a comprehensive and challenging benchmark designed to rigorously assess professional-level diagnostic competence. DiagnosisArena consists of 1,113 pairs of segmented patient cases and corresponding diagnoses, spanning 28 medical specialties, deriving from clinical case reports published in 10 top-tier medical journals. The benchmark is developed through a meticulous construction pipeline, involving multiple rounds of screening and review by both AI systems and human experts, with thorough checks conducted to prevent data leakage. Our study reveals that even the most advanced reasoning models, o3, o1, and DeepSeek-R1, achieve only 51.12%, 31.09%, and 17.79% accuracy, respectively. This finding highlights a significant generalization bottleneck in current large language models when faced with clinical diagnostic reasoning challenges. Through DiagnosisArena, we aim to drive further advancements in AI's diagnostic reasoning capabilities, enabling more effective solutions for real-world clinical diagnostic challenges. We provide the benchmark and evaluation tools for further research and development https://github.com/SPIRAL-MED/DiagnosisArena.

DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理