AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments
作者: Samuel Schmidgall, Rojin Ziaei, Carl Harris, Eduardo Reis, Jeffrey Jopling, Michael Moor
分类: cs.HC, cs.CL
发布日期: 2024-05-13 (更新: 2025-05-25)
💡 一句话要点
AgentClinic:多模态Agent基准测试,评估AI在模拟临床环境中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 临床决策 大型语言模型 智能Agent 模拟环境
📋 核心要点
- 现有临床LLM评估benchmark依赖静态问答,无法准确反映临床决策的复杂性和序贯性。
- AgentClinic构建多模态模拟临床环境,包含患者互动、工具使用和不完整信息下的数据收集。
- 实验表明,AgentClinic更具挑战性,并揭示了不同LLM在工具使用能力上的显著差异。
📝 摘要(中文)
为了评估大型语言模型(LLM)在临床场景中的潜在应用价值,我们提出了AgentClinic,一个多模态Agent基准测试。该基准在模拟临床环境中评估LLM,涵盖患者互动、不完整信息下的多模态数据收集以及各种工具的使用。AgentClinic对九个医学专科和七种语言进行了深入评估。研究发现,在AgentClinic的序贯决策模式下解决MedQA问题更具挑战性,诊断准确率可能降至原始准确率的十分之一以下。Claude-3.5在大多数设置中表现优于其他LLM。不同LLM在使用工具(如经验学习、自适应检索和反思循环)的能力上存在显著差异。Llama-3通过允许跨案例编写和编辑笔记的notebook工具,实现了高达92%的相对改进。为了进一步验证临床模拟,我们利用真实世界的电子健康记录,进行了临床读者研究,对Agent进行了偏差扰动,并探索了这种交互式环境首次实现的新型以患者为中心的指标。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在临床场景中的评估主要依赖于静态的问答形式,这种方式无法捕捉到临床决策过程的复杂性和序贯性。真实的临床决策往往需要与患者互动、收集多模态数据(例如影像、生命体征等),并在信息不完整的情况下做出判断。因此,如何设计一个更贴近真实临床环境的评估基准,成为了一个重要的挑战。
核心思路:AgentClinic的核心思路是构建一个模拟的临床环境,让LLM扮演智能Agent的角色,与虚拟患者进行互动,收集和分析多模态数据,并利用各种工具(例如电子病历、医学知识库等)来辅助诊断和治疗。通过这种方式,可以更全面地评估LLM在临床场景中的决策能力和实用性。
技术框架:AgentClinic的技术框架主要包括以下几个模块:1) 模拟临床环境:构建虚拟的患者、病房和医疗设备,模拟真实的临床场景。2) 多模态数据收集:支持多种类型的数据输入,包括文本、图像、音频等,模拟临床医生获取信息的途径。3) 工具集成:集成各种临床工具,例如电子病历、医学知识库、诊断辅助系统等,让Agent可以利用这些工具来辅助决策。4) 评估指标:设计一系列评估指标,包括诊断准确率、治疗效果、患者满意度等,全面评估Agent的性能。
关键创新:AgentClinic的关键创新在于其模拟临床环境的真实性和交互性。与传统的静态问答benchmark相比,AgentClinic可以更全面地评估LLM在临床场景中的决策能力和实用性。此外,AgentClinic还引入了以患者为中心的评估指标,例如患者满意度,更加关注患者的体验和福祉。
关键设计:AgentClinic的关键设计包括:1) 多样化的病例库:包含九个医学专科的病例,覆盖了各种常见的疾病和症状。2) 多语言支持:支持七种语言,方便不同国家和地区的研究人员使用。3) 可定制的Agent配置:允许用户自定义Agent的参数和行为,例如学习率、探索策略等。4) 详细的日志记录:记录Agent的每一步操作和决策过程,方便分析和调试。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在AgentClinic的序贯决策模式下,MedQA问题的诊断准确率显著下降,表明该基准更具挑战性。Claude-3.5在大多数设置中表现优于其他LLM。Llama-3通过notebook工具实现了高达92%的相对改进,表明工具的使用可以显著提升LLM的性能。
🎯 应用场景
AgentClinic可用于评估和改进LLM在医疗领域的应用,例如辅助诊断、个性化治疗、患者教育等。通过AgentClinic的评估,可以筛选出更适合临床应用的LLM,并指导LLM的开发和优化。此外,AgentClinic还可以用于培训医学生和临床医生,提高他们的临床决策能力。
📄 摘要(原文)
Evaluating large language models (LLM) in clinical scenarios is crucial to assessing their potential clinical utility. Existing benchmarks rely heavily on static question-answering, which does not accurately depict the complex, sequential nature of clinical decision-making. Here, we introduce AgentClinic, a multimodal agent benchmark for evaluating LLMs in simulated clinical environments that include patient interactions, multimodal data collection under incomplete information, and the usage of various tools, resulting in an in-depth evaluation across nine medical specialties and seven languages. We find that solving MedQA problems in the sequential decision-making format of AgentClinic is considerably more challenging, resulting in diagnostic accuracies that can drop to below a tenth of the original accuracy. Overall, we observe that agents sourced from Claude-3.5 outperform other LLM backbones in most settings. Nevertheless, we see stark differences in the LLMs' ability to make use of tools, such as experiential learning, adaptive retrieval, and reflection cycles. Strikingly, Llama-3 shows up to 92% relative improvements with the notebook tool that allows for writing and editing notes that persist across cases. To further scrutinize our clinical simulations, we leverage real-world electronic health records, perform a clinical reader study, perturb agents with biases, and explore novel patient-centric metrics that this interactive environment firstly enables.