ClinicRealm: Re-evaluating Large Language Models with Conventional Machine Learning for Non-Generative Clinical Prediction Tasks

作者: Yinghao Zhu, Junyi Gao, Zixiang Wang, Weibin Liao, Xiaochen Zheng, Lifang Liang, Miguel O. Bernabeu, Yasha Wang, Lequan Yu, Chengwei Pan, Ewen M. Harrison, Liantao Ma

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-07-26 (更新: 2025-10-04)

备注: Code: https://github.com/yhzhu99/ehr-llm-benchmark

💡 一句话要点

ClinicRealm：利用传统机器学习重新评估大型语言模型在非生成临床预测任务中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床预测 电子健康记录 零样本学习 基准测试

📋 核心要点

现有方法在非生成临床预测任务中，对大型语言模型（LLMs）的效用评估不足，缺乏系统性基准测试。
ClinicRealm研究通过基准测试多种LLM和传统方法，评估它们在非结构化临床笔记和结构化电子健康记录上的表现。
实验结果表明，领先的LLM在零样本设置下，尤其是在处理非结构化文本时，可以超越微调的BERT模型和传统方法。

📝 摘要（中文）

大型语言模型（LLMs）在医学领域的应用日益广泛。然而，它们在非生成临床预测中的效用，通常被认为不如专用模型，但仍未得到充分评估，导致该领域持续争论，并可能因缺乏系统性基准测试而造成误用、误解或过度依赖。ClinicRealm研究通过在非结构化临床笔记和结构化电子健康记录（EHR）上对15个GPT风格的LLM、5个BERT风格的模型和11种传统方法进行基准测试，同时评估它们的推理、可靠性和公平性来解决这个问题。主要发现揭示了一个重大转变：对于临床笔记预测，领先的LLM（例如，DeepSeek-V3.1-Think、GPT-5）在零样本设置中现在明显优于微调的BERT模型。在结构化EHR上，虽然专用模型在充足的数据下表现出色，但高级LLM（例如，GPT-5、DeepSeek-V3.1-Think）显示出强大的零样本能力，通常在数据稀缺的设置中超越传统模型。值得注意的是，领先的开源LLM可以匹配或超过专有模型。这些结果提供了令人信服的证据，表明现代LLM是用于非生成临床预测的有竞争力的工具，尤其是在非结构化文本方面，并提供了数据高效的结构化数据选项，因此有必要重新评估模型选择策略。这项研究应为医学信息学家、AI开发人员和临床研究人员提供重要的见解，可能促使人们重新评估当前的假设，并激发LLM在预测性医疗保健中的新方法。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在非生成临床预测任务中的性能评估问题。现有方法对LLMs在该领域的潜力评估不足，缺乏与传统机器学习模型的系统性比较，导致对LLMs的价值存在争议，可能造成误用或过度依赖。尤其是在数据稀缺的情况下，如何选择合适的模型仍然是一个挑战。

核心思路：论文的核心思路是通过构建一个全面的基准测试平台ClinicRealm，系统性地评估多种LLMs（包括GPT风格和BERT风格）以及传统机器学习模型在临床预测任务中的表现。通过在结构化和非结构化临床数据上进行实验，揭示LLMs在不同数据条件下的优势和劣势，从而为模型选择提供更客观的依据。

技术框架：ClinicRealm研究的技术框架主要包括以下几个部分：1) 数据集构建：收集并整理结构化电子健康记录（EHR）和非结构化临床笔记；2) 模型选择：选取15个GPT风格的LLM、5个BERT风格的模型和11种传统机器学习方法；3) 实验设计：在零样本和微调设置下，评估模型在不同临床预测任务上的性能；4) 评估指标：采用标准的分类和回归评估指标，如准确率、F1值、AUC等；5) 分析与比较：对比不同模型在不同数据类型和数据量下的表现，分析LLMs的推理能力、可靠性和公平性。

关键创新：论文的关键创新在于：1) 系统性的基准测试：首次对大量LLMs和传统模型在临床预测任务中进行了全面的比较；2) 揭示了LLMs在零样本设置下的潜力：证明了领先的LLMs在处理非结构化临床文本和数据稀缺的结构化数据时，可以超越微调的BERT模型和传统方法；3) 强调了开源LLMs的竞争力：发现领先的开源LLMs可以与专有模型相媲美。

关键设计：论文的关键设计包括：1) 选取具有代表性的LLMs：包括不同规模、不同架构和不同训练数据的LLMs，以覆盖LLM领域的主要发展方向；2) 设计多种临床预测任务：涵盖不同的疾病类型和预测目标，以评估模型在不同场景下的泛化能力；3) 采用严格的评估流程：使用标准化的评估指标和统计方法，确保实验结果的可靠性和可重复性；4) 关注模型的公平性：评估模型在不同人群中的表现差异，以避免算法偏见。

🖼️ 关键图片

📊 实验亮点

研究表明，在临床笔记预测任务中，DeepSeek-V3.1-Think和GPT-5等领先的LLM在零样本设置下明显优于微调的BERT模型。在结构化EHR数据上，这些LLM在数据稀缺的情况下也超越了传统模型。此外，领先的开源LLM能够与专有模型相媲美，为医疗机构提供了更经济高效的选择。

🎯 应用场景

该研究成果可应用于临床决策支持系统，帮助医生更准确地预测患者的疾病风险和治疗效果。通过利用LLMs处理非结构化临床文本的能力，可以从大量的病历数据中提取有价值的信息，从而改善患者的诊断和治疗。此外，该研究还可以指导医疗机构选择合适的AI模型，优化医疗资源配置。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly deployed in medicine. However, their utility in non-generative clinical prediction, often presumed inferior to specialized models, remains under-evaluated, leading to ongoing debate within the field and potential for misuse, misunderstanding, or over-reliance due to a lack of systematic benchmarking. Our ClinicRealm study addresses this by benchmarking 15 GPT-style LLMs, 5 BERT-style models, and 11 traditional methods on unstructured clinical notes and structured Electronic Health Records (EHR), while also assessing their reasoning, reliability, and fairness. Key findings reveal a significant shift: for clinical note predictions, leading LLMs (e.g., DeepSeek-V3.1-Think, GPT-5) in zero-shot settings now decisively outperform finetuned BERT models. On structured EHRs, while specialized models excel with ample data, advanced LLMs (e.g., GPT-5, DeepSeek-V3.1-Think) show potent zero-shot capabilities, often surpassing conventional models in data-scarce settings. Notably, leading open-source LLMs can match or exceed proprietary counterparts. These results provide compelling evidence that modern LLMs are competitive tools for non-generative clinical prediction, particularly with unstructured text and offering data-efficient structured data options, thus necessitating a re-evaluation of model selection strategies. This research should serve as an important insight for medical informaticists, AI developers, and clinical researchers, potentially prompting a reassessment of current assumptions and inspiring new approaches to LLM application in predictive healthcare.

ClinicRealm: Re-evaluating Large Language Models with Conventional Machine Learning for Non-Generative Clinical Prediction Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理