Performance of Large Language Models in Supporting Medical Diagnosis and Treatment

作者: Diogo Sousa, Guilherme Barbosa, Catarina Rocha, Dulce Oliveira

分类: cs.CL, cs.AI, cs.ET, cs.HC

发布日期: 2025-04-14

备注: 21 pages, 6 figures, 4 tables. Acknowledgements: The authors acknowledge the support of the AITriage4SU Project (2024.07400.IACDC/2024), funded by the FCT (Foundation for Science and Technology), Portugal

💡 一句话要点

评估大型语言模型在医疗诊断和治疗中的表现，并分析其成本效益。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 医疗诊断 治疗规划 医学知识评估 成本效益

📋 核心要点

现有医疗诊断和治疗依赖人工经验，处理海量数据时效率较低，易出错。
利用大型语言模型分析医学数据，辅助医生进行疾病诊断、治疗推荐和预后预测。
在葡萄牙国家医学专科入学考试上评估多种LLM，发现部分模型表现优于人类基准。

📝 摘要（中文）

本研究评估了大型语言模型（LLMs）在医疗保健领域的应用潜力，旨在提高诊断准确性和辅助医疗治疗规划。这些基于人工智能的系统能够分析海量数据集，协助临床医生识别疾病、推荐治疗方案和预测患者预后。研究选取了一系列当代LLMs，包括开源和闭源模型，并使用2024年葡萄牙国家医学专科入学考试（PNA）这一标准化医学知识评估工具进行测试。结果表明，不同模型的准确性和成本效益存在显著差异，其中一些模型在特定任务上的表现甚至超过了医学生的基准水平。研究识别了基于准确性和成本综合评分的领先模型，讨论了诸如思维链（Chain-of-Thought）等推理方法的影响，并强调了LLMs作为有价值的辅助工具在复杂临床决策中辅助医疗专业人员的潜力。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在支持医疗诊断和治疗方面的能力。现有方法依赖于人工经验，处理大量医学数据时效率较低，并且容易出现人为错误。此外，不同医生之间的诊断和治疗水平可能存在差异，导致医疗质量的不一致性。因此，需要一种能够快速、准确地分析医学数据并提供辅助决策支持的工具。

核心思路：论文的核心思路是利用大型语言模型强大的自然语言处理和知识推理能力，将医学知识编码到模型中，并通过模型对医学问题进行推理和解答。通过在医学考试等标准化评估工具上测试LLMs的性能，可以客观地评估其在医疗领域的应用潜力。同时，考虑模型的成本效益，选择合适的模型进行部署和应用。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择合适的LLMs，包括开源和闭源模型；2) 准备医学知识评估数据集，例如葡萄牙国家医学专科入学考试（PNA）；3) 使用LLMs对数据集中的问题进行解答，并评估其准确性；4) 分析不同模型的成本效益，例如推理时间和计算资源消耗；5) 比较不同模型的性能，并识别领先模型；6) 讨论推理方法（如思维链）对模型性能的影响。

关键创新：该研究的关键创新在于系统性地评估了多种LLMs在医学领域的应用潜力，并考虑了模型的成本效益。与以往的研究相比，该研究不仅关注模型的准确性，还关注模型的实际应用价值。此外，该研究还讨论了推理方法对模型性能的影响，为未来的研究提供了参考。

关键设计：研究的关键设计包括：1) 选择具有代表性的LLMs，包括不同规模和架构的模型；2) 使用标准化的医学知识评估数据集，以确保评估结果的客观性和可比性；3) 采用准确性和成本效益相结合的评估指标，以全面评估模型的性能；4) 分析推理方法对模型性能的影响，例如思维链（Chain-of-Thought）方法。

🖼️ 关键图片

📊 实验亮点

研究结果表明，部分LLMs在葡萄牙国家医学专科入学考试中的表现超过了医学生的基准水平，展现了LLMs在医学知识理解和推理方面的潜力。研究还发现，不同模型的准确性和成本效益存在显著差异，为实际应用中选择合适的模型提供了参考依据。思维链等推理方法能够有效提升模型的性能。

🎯 应用场景

该研究成果可应用于开发智能医疗辅助诊断系统，帮助医生快速准确地进行疾病诊断和治疗方案制定。通过集成LLMs，可以提高医疗效率，减少人为错误，并促进医疗资源的合理分配。未来，LLMs有望在远程医疗、个性化医疗等领域发挥更大的作用，提升整体医疗服务水平。

📄 摘要（原文）

The integration of Large Language Models (LLMs) into healthcare holds significant potential to enhance diagnostic accuracy and support medical treatment planning. These AI-driven systems can analyze vast datasets, assisting clinicians in identifying diseases, recommending treatments, and predicting patient outcomes. This study evaluates the performance of a range of contemporary LLMs, including both open-source and closed-source models, on the 2024 Portuguese National Exam for medical specialty access (PNA), a standardized medical knowledge assessment. Our results highlight considerable variation in accuracy and cost-effectiveness, with several models demonstrating performance exceeding human benchmarks for medical students on this specific task. We identify leading models based on a combined score of accuracy and cost, discuss the implications of reasoning methodologies like Chain-of-Thought, and underscore the potential for LLMs to function as valuable complementary tools aiding medical professionals in complex clinical decision-making.

Performance of Large Language Models in Supporting Medical Diagnosis and Treatment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理