BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text
作者: Jiageng Wu, Bowen Gu, Ren Zhou, Kevin Xie, Doug Snyder, Yixing Jiang, Valentina Carducci, Richard Wyss, Rishi J Desai, Emily Alsentzer, Leo Anthony Celi, Adam Rodman, Sebastian Schneeweiss, Jonathan H. Chen, Santiago Romero-Brufau, Kueiyu Joshua Lin, Jie Yang
分类: cs.CL, cs.AI
发布日期: 2025-04-28 (更新: 2025-10-28)
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出BRIDGE:用于评估大型语言模型在真实临床文本理解能力的多语言基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 临床文本理解 基准测试 电子健康记录 医学自然语言处理
📋 核心要点
- 现有医学LLM基准测试未能充分捕捉真实临床数据的复杂性,且通用性受限。
- BRIDGE提出一个多语言、多任务的临床基准,覆盖更广泛的临床场景和任务类型。
- 实验表明,开源LLM性能可与专有模型媲美,且通用模型优于旧架构的医学微调模型。
📝 摘要(中文)
大型语言模型(LLMs)在医疗应用领域展现出巨大潜力,并且正以惊人的速度发展,新的模型不断涌现。然而,在电子健康记录(EHRs)等大规模真实世界数据上进行基准测试至关重要,因为临床决策直接受到这些数据源的影响,但目前的评估仍然有限。现有的大多数基准依赖于医学考试式问题或来自PubMed的文本,未能捕捉到真实世界临床数据的复杂性。其他的则狭隘地关注特定的应用场景,限制了其在更广泛的临床应用中的通用性。为了解决这一差距,我们提出了BRIDGE,这是一个全面的多语言基准,包含来自九种语言的真实世界临床数据源的87个任务。它涵盖了八种主要任务类型,横跨患者护理的整个连续过程,包括六个临床阶段和20个代表性应用,包括分诊和转诊、咨询、信息提取、诊断、预后和账单编码,并涉及14个临床专业。我们系统地评估了95个LLM(包括DeepSeek-R1、GPT-4o、Gemini系列和Qwen3系列)在各种推理策略下的表现。我们的结果表明,模型大小、语言、自然语言处理任务和临床专业之间存在显著的性能差异。值得注意的是,我们证明了开源LLM可以达到与专有模型相当的性能,而基于较旧架构的医学微调LLM通常不如更新的通用模型。BRIDGE及其相应的排行榜为开发和评估新的LLM在真实世界临床文本理解方面提供了一个基础资源和一个独特的参考。
🔬 方法详解
问题定义:现有医学语言模型的评估基准主要存在两个痛点:一是数据来源单一,多为医学考试题或PubMed文献,无法反映真实临床场景的复杂性;二是任务类型单一,集中于特定应用,缺乏跨临床阶段和专业的通用性。这导致模型在真实临床环境中的表现难以预测和评估。
核心思路:BRIDGE的核心思路是构建一个更全面、更贴近真实临床实践的基准数据集,包含多语言、多任务、多临床阶段和专业的数据。通过在这一基准上评估LLM,可以更准确地了解模型在真实临床场景下的表现,并指导模型优化。
技术框架:BRIDGE基准包含87个任务,覆盖9种语言,8种任务类型,6个临床阶段和14个临床专业。任务类型包括分诊和转诊、咨询、信息提取、诊断、预后和账单编码等。数据集来源于真实临床数据。研究者评估了95个LLM模型,包括开源和闭源模型,并采用了不同的推理策略。
关键创新:BRIDGE的关键创新在于其数据集的全面性和真实性。它不仅覆盖了多种语言和任务类型,还包含了来自真实临床场景的数据,例如电子病历。这使得BRIDGE能够更准确地评估LLM在真实临床环境下的表现。
关键设计:BRIDGE在数据选择和任务设计上都考虑了临床实践的实际需求。例如,在信息提取任务中,研究者选择了对临床决策至关重要的信息类型。在模型评估方面,研究者采用了多种指标来衡量模型的性能,包括准确率、召回率和F1值。
📊 实验亮点
实验结果表明,在BRIDGE基准上,开源LLM的性能可以与专有模型相媲美。此外,更新的通用LLM通常优于基于较旧架构的医学微调LLM。例如,DeepSeek-R1等开源模型在某些任务上表现出色,而GPT-4o等通用模型在整体性能上更具优势。这些结果表明,模型架构的更新和通用能力的提升对医学LLM的性能至关重要。
🎯 应用场景
BRIDGE基准的潜在应用领域包括医学自然语言处理、临床决策支持系统、智能医疗助手等。通过使用BRIDGE评估和优化LLM,可以提高模型在真实临床场景下的表现,从而改善患者护理质量,提高医疗效率,并降低医疗成本。未来,BRIDGE可以作为医学LLM研究和应用的重要参考。
📄 摘要(原文)
Large language models (LLMs) hold great promise for medical applications and are evolving rapidly, with new models being released at an accelerated pace. However, benchmarking on large-scale real-world data such as electronic health records (EHRs) is critical, as clinical decisions are directly informed by these sources, yet current evaluations remain limited. Most existing benchmarks rely on medical exam-style questions or PubMed-derived text, failing to capture the complexity of real-world clinical data. Others focus narrowly on specific application scenarios, limiting their generalizability across broader clinical use. To address this gap, we present BRIDGE, a comprehensive multilingual benchmark comprising 87 tasks sourced from real-world clinical data sources across nine languages. It covers eight major task types spanning the entire continuum of patient care across six clinical stages and 20 representative applications, including triage and referral, consultation, information extraction, diagnosis, prognosis, and billing coding, and involves 14 clinical specialties. We systematically evaluated 95 LLMs (including DeepSeek-R1, GPT-4o, Gemini series, and Qwen3 series) under various inference strategies. Our results reveal substantial performance variation across model sizes, languages, natural language processing tasks, and clinical specialties. Notably, we demonstrate that open-source LLMs can achieve performance comparable to proprietary models, while medically fine-tuned LLMs based on older architectures often underperform versus updated general-purpose models. The BRIDGE and its corresponding leaderboard serve as a foundational resource and a unique reference for the development and evaluation of new LLMs in real-world clinical text understanding. The BRIDGE leaderboard: https://huggingface.co/spaces/YLab-Open/BRIDGE-Medical-Leaderboard