Automating Expert-Level Medical Reasoning Evaluation of Large Language Models

📄 arXiv: 2507.07988v1 📥 PDF

作者: Shuang Zhou, Wenya Xie, Jiaxi Li, Zaifu Zhan, Meijia Song, Han Yang, Cheyenna Espinoza, Lindsay Welton, Xinnie Mai, Yanwei Jin, Zidu Xu, Yuen-Hei Chung, Yiyun Xing, Meng-Han Tsai, Emma Schaffer, Yucheng Shi, Ninghao Liu, Zirui Liu, Rui Zhang

分类: cs.CL

发布日期: 2025-07-10

备注: 22 pages,6 figures


💡 一句话要点

提出MedThink-Bench基准与LLM-w-Ref评估框架,用于自动化评估LLM的医学推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学推理 大型语言模型 基准测试 自动化评估 LLM-as-a-Judge

📋 核心要点

  1. 现有医学LLM评估方法存在评估质量不高或扩展性不足的问题,缺乏可靠的基准测试。
  2. 提出MedThink-Bench基准和LLM-w-Ref评估框架,利用专家标注的推理过程和LLM作为裁判进行评估。
  3. 实验表明LLM-w-Ref与专家评估高度相关,且小模型MedGemma-27B性能超越大型专有模型OpenAI-o3。

📝 摘要(中文)

随着大型语言模型(LLMs)日益融入临床决策,确保透明和可信的推理至关重要。然而,现有的LLM医学推理能力评估策略要么评估效果不佳,要么可扩展性差,并且缺乏严格的基准。为了解决这个问题,我们推出了MedThink-Bench,这是一个旨在对LLM的医学推理进行严格、可解释和可扩展评估的基准。MedThink-Bench包含跨越十个医学领域的500个具有挑战性的问题,每个问题都标有专家精心制作的逐步推理过程。在此基础上,我们提出了LLM-w-Ref,这是一个新颖的评估框架,它利用细粒度的推理过程和LLM-as-a-Judge机制,以专家级的保真度评估中间推理,同时保持可扩展性。实验表明,LLM-w-Ref与专家判断表现出很强的正相关性。通过对十二个最先进的LLM进行基准测试,我们发现较小的模型(例如,MedGemma-27B)可以超越较大的专有模型(例如,OpenAI-o3)。总的来说,MedThink-Bench为评估LLM的医学推理提供了一个基础工具,从而推进了它们在临床实践中的安全和负责任的部署。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在医学推理能力评估方面存在的不足。现有方法要么评估质量不高,无法准确反映LLM的真实推理水平;要么可扩展性差,难以应用于大规模的LLM评估。此外,缺乏一个统一、严格的基准测试,使得不同LLM之间的医学推理能力难以比较。现有方法的痛点在于缺乏细粒度的推理过程评估和专家级别的评估标准。

核心思路:论文的核心思路是构建一个高质量的医学推理基准(MedThink-Bench),并设计一个能够利用细粒度推理过程进行评估的框架(LLM-w-Ref)。通过专家标注的逐步推理过程,为LLM的推理过程提供参考标准。同时,利用LLM作为裁判,自动化地评估LLM的推理过程与专家标注的推理过程之间的相似度,从而实现可扩展的、专家级别的医学推理能力评估。

技术框架:整体框架包含两个主要部分:MedThink-Bench基准的构建和LLM-w-Ref评估框架的设计。MedThink-Bench包含500个医学推理问题,覆盖10个医学领域,每个问题都由专家标注了逐步推理过程。LLM-w-Ref评估框架利用这些专家标注的推理过程,通过LLM-as-a-Judge机制,评估待评估LLM的推理过程与专家标注的推理过程之间的相似度。评估过程包括:1)输入问题给待评估LLM,得到其推理过程;2)将待评估LLM的推理过程和专家标注的推理过程输入给LLM裁判;3)LLM裁判输出评估结果,包括推理过程的相似度得分。

关键创新:论文的关键创新在于:1)提出了MedThink-Bench基准,提供了一个高质量的医学推理评估数据集,包含专家标注的逐步推理过程;2)提出了LLM-w-Ref评估框架,利用LLM-as-a-Judge机制,实现了自动化、可扩展的、专家级别的医学推理能力评估。与现有方法的本质区别在于,LLM-w-Ref能够评估LLM的中间推理过程,而不仅仅是最终答案的正确性。

关键设计:在LLM-w-Ref评估框架中,关键设计包括:1)LLM裁判的选择:论文选择了多个LLM作为裁判,并比较了它们的评估结果与专家评估结果之间的相关性,选择了相关性最高的LLM作为最终的裁判;2)推理过程相似度评估方法:论文设计了多种推理过程相似度评估方法,包括基于文本相似度的评估方法和基于逻辑推理的评估方法,并比较了它们的评估效果,选择了效果最好的评估方法。

📊 实验亮点

实验结果表明,LLM-w-Ref评估框架与专家评估结果具有很强的正相关性,验证了该框架的有效性。此外,实验还发现,一些较小的开源模型(如MedGemma-27B)在MedThink-Bench上的表现甚至超过了大型专有模型(如OpenAI-o3),表明模型大小并非医学推理能力的唯一决定因素。MedThink-Bench为医学LLM的公平比较提供了可能。

🎯 应用场景

该研究成果可应用于医学LLM的开发和评估,帮助开发者改进LLM的医学推理能力,提高其在临床决策中的可靠性和安全性。此外,MedThink-Bench基准可以作为医学LLM研究的通用评估平台,促进该领域的发展。未来,该研究可以扩展到其他医学领域,并与其他医学知识库相结合,构建更强大的医学LLM。

📄 摘要(原文)

As large language models (LLMs) become increasingly integrated into clinical decision-making, ensuring transparent and trustworthy reasoning is essential. However, existing evaluation strategies of LLMs' medical reasoning capability either suffer from unsatisfactory assessment or poor scalability, and a rigorous benchmark remains lacking. To address this, we introduce MedThink-Bench, a benchmark designed for rigorous, explainable, and scalable assessment of LLMs' medical reasoning. MedThink-Bench comprises 500 challenging questions across ten medical domains, each annotated with expert-crafted step-by-step rationales. Building on this, we propose LLM-w-Ref, a novel evaluation framework that leverages fine-grained rationales and LLM-as-a-Judge mechanisms to assess intermediate reasoning with expert-level fidelity while maintaining scalability. Experiments show that LLM-w-Ref exhibits a strong positive correlation with expert judgments. Benchmarking twelve state-of-the-art LLMs, we find that smaller models (e.g., MedGemma-27B) can surpass larger proprietary counterparts (e.g., OpenAI-o3). Overall, MedThink-Bench offers a foundational tool for evaluating LLMs' medical reasoning, advancing their safe and responsible deployment in clinical practice.