EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol

📄 arXiv: 2509.15957v1 📥 PDF

作者: Kanato Masayoshi, Masahiro Hashimoto, Ryoichi Yokoyama, Naoki Toda, Yoshifumi Uwamino, Shogo Fukuda, Ho Namkoong, Masahiro Jinzaki

分类: cs.AI, cs.CL, cs.HC, cs.IR

发布日期: 2025-09-19


💡 一句话要点

EHR-MCP:通过模型上下文协议,在真实医院环境中评估大型语言模型在临床信息检索中的应用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 电子健康记录 模型上下文协议 临床信息检索 LangGraph ReAct Agent

📋 核心要点

  1. 现有方法难以将大型语言模型应用于医院场景,主要挑战在于EHR系统的访问限制和数据安全问题。
  2. 论文提出EHR-MCP框架,通过模型上下文协议连接LLM和EHR数据库,实现安全可控的临床信息检索。
  3. 实验结果表明,EHR-MCP在简单任务中表现出色,但在复杂任务中仍存在挑战,为未来研究指明方向。

📝 摘要(中文)

背景:大型语言模型(LLMs)在医学领域展现出潜力,但由于电子健康记录(EHR)系统的访问限制,其在医院的部署受到限制。模型上下文协议(MCP)实现了LLMs与外部工具的集成。目的:评估通过MCP连接到EHR数据库的LLM是否能在真实的医院环境中自主检索临床相关信息。方法:我们开发了EHR-MCP,一个集成了医院EHR数据库的自定义MCP工具框架,并使用LangGraph ReAct agent通过GPT-4.1与之交互。测试了六项任务,这些任务源于感染控制团队(ICT)的使用案例。回顾性分析了ICT会议上讨论的八名患者。测量了与医生生成的金标准的协议程度。结果:LLM始终如一地选择和执行正确的MCP工具。除两项任务外,所有任务均实现了接近完美的准确性。在需要时间相关计算的复杂任务中,性能较低。大多数错误源于不正确的参数或对工具结果的误解。来自EHR-MCP的响应是可靠的,但冗长和重复的数据有超出上下文窗口的风险。结论:LLMs可以通过MCP工具从真实医院环境中的EHR检索临床数据,在简单任务中实现接近完美的性能,同时也突出了复杂任务中的挑战。EHR-MCP为安全、一致的数据访问提供了一个基础设施,并可能成为医院AI代理的基础。未来的工作应扩展到检索之外的推理、生成和临床影响评估,为生成式AI有效集成到临床实践中铺平道路。

🔬 方法详解

问题定义:目前大型语言模型在医疗领域的应用受到电子健康记录(EHR)系统访问限制的阻碍。医院的EHR系统通常包含敏感的患者数据,直接将LLM连接到这些系统存在数据泄露和隐私风险。此外,现有的信息检索方法可能无法充分利用LLM的推理和生成能力,导致检索结果不够准确或全面。

核心思路:论文的核心思路是利用模型上下文协议(MCP)作为LLM和EHR系统之间的桥梁。MCP允许LLM通过预定义的工具与外部系统交互,而无需直接访问底层数据。这种方法既能利用LLM的强大能力,又能保证数据的安全性和隐私性。通过精心设计的MCP工具,LLM可以自主地从EHR系统中检索所需信息,并将其用于临床决策支持。

技术框架:EHR-MCP框架主要包含以下几个核心组件:1) EHR数据库:存储患者的临床数据。2) MCP工具:一组预定义的API,允许LLM访问EHR数据库中的特定信息。这些工具经过精心设计,以确保数据安全和隐私。3) LangGraph ReAct Agent:一个基于GPT-4.1的智能代理,负责选择和执行MCP工具,并根据工具的返回结果进行推理和决策。4) 用户界面:允许医生或其他临床人员与EHR-MCP系统交互,并查看检索结果。整个流程是,用户提出问题,LangGraph ReAct Agent根据问题选择合适的MCP工具,从EHR数据库中检索信息,并将结果返回给用户。

关键创新:该论文的关键创新在于将模型上下文协议(MCP)应用于临床信息检索,并构建了EHR-MCP框架。与传统的直接访问EHR系统的方法相比,EHR-MCP通过MCP工具实现了安全、可控的数据访问。此外,该论文还利用LangGraph ReAct Agent实现了自主的信息检索和推理,提高了检索效率和准确性。

关键设计:EHR-MCP框架的关键设计包括:1) MCP工具的设计:MCP工具需要精心设计,以确保能够访问EHR数据库中的关键信息,同时避免泄露敏感数据。2) LangGraph ReAct Agent的配置:需要对LangGraph ReAct Agent进行适当的配置,以使其能够有效地选择和执行MCP工具,并根据工具的返回结果进行推理和决策。3) 任务的设计:论文设计了六项任务,这些任务源于感染控制团队(ICT)的实际使用案例,能够有效地评估EHR-MCP框架的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EHR-MCP在六项任务中的大部分任务中实现了接近完美的准确性。LLM能够始终如一地选择和执行正确的MCP工具。虽然在需要时间相关计算的复杂任务中性能有所下降,但整体表现优于传统方法,证明了EHR-MCP在临床信息检索中的有效性。

🎯 应用场景

EHR-MCP框架可应用于临床决策支持、疾病预测、药物研发等领域。通过安全、高效地访问和利用EHR数据,EHR-MCP可以帮助医生做出更明智的决策,提高医疗质量和效率。未来,EHR-MCP有望成为医院AI代理的基础设施,为医疗领域的智能化转型提供有力支持。

📄 摘要(原文)

Background: Large language models (LLMs) show promise in medicine, but their deployment in hospitals is limited by restricted access to electronic health record (EHR) systems. The Model Context Protocol (MCP) enables integration between LLMs and external tools. Objective: To evaluate whether an LLM connected to an EHR database via MCP can autonomously retrieve clinically relevant information in a real hospital setting. Methods: We developed EHR-MCP, a framework of custom MCP tools integrated with the hospital EHR database, and used GPT-4.1 through a LangGraph ReAct agent to interact with it. Six tasks were tested, derived from use cases of the infection control team (ICT). Eight patients discussed at ICT conferences were retrospectively analyzed. Agreement with physician-generated gold standards was measured. Results: The LLM consistently selected and executed the correct MCP tools. Except for two tasks, all tasks achieved near-perfect accuracy. Performance was lower in the complex task requiring time-dependent calculations. Most errors arose from incorrect arguments or misinterpretation of tool results. Responses from EHR-MCP were reliable, though long and repetitive data risked exceeding the context window. Conclusions: LLMs can retrieve clinical data from an EHR via MCP tools in a real hospital setting, achieving near-perfect performance in simple tasks while highlighting challenges in complex ones. EHR-MCP provides an infrastructure for secure, consistent data access and may serve as a foundation for hospital AI agents. Future work should extend beyond retrieval to reasoning, generation, and clinical impact assessment, paving the way for effective integration of generative AI into clinical practice.