Simulated patient systems powered by large language model-based AI agents offer potential for transforming medical education

📄 arXiv: 2409.18924v4 📥 PDF

作者: Huizi Yu, Jiayan Zhou, Lingyao Li, Shan Chen, Jack Gallifant, Anye Shi, Xiang Li, Jingxian He, Wenyue Hua, Mingyu Jin, Guang Chen, Yang Zhou, Zhao Li, Trisha Gupte, Ming-Li Chen, Zahra Azizi, Qi Dou, Bryan P. Yan, Yongfeng Zhang, Yanqiu Xing, Themistocles L. Danielle S. Bitterman, Themistocles L. Assimes, Xin Ma, Lin Lu, Lizhou Fan

分类: cs.CL, cs.AI

发布日期: 2024-09-27 (更新: 2025-11-27)

备注: 19 pages, 6 figures, 4 tables


💡 一句话要点

AIPatient:基于大语言模型的模拟病人系统,革新医学教育

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模拟病人系统 大型语言模型 医学教育 检索增强生成 AI代理

📋 核心要点

  1. 医学教育中模拟病人系统至关重要,但现有系统在复制复杂医疗状况和医患互动方面存在局限性。
  2. AIPatient利用大型语言模型和检索增强生成框架,结合真实患者数据知识图谱,实现高保真模拟。
  3. 实验表明,AIPatient在问答准确率、可读性、鲁棒性和用户体验方面表现出色,优于部分集成或未集成代理的版本。

📝 摘要(中文)

本研究旨在利用人工智能(AI),特别是大型语言模型(LLM),增强模拟病人系统在医学教育中的应用。通过构建基于LLM的AI代理AIPatient,该系统能够高保真且低成本地模拟医疗状况和医患互动。AIPatient采用检索增强生成(RAG)框架,包含六个特定任务的代理,用于复杂推理。为了提高真实性,系统连接到从MIMIC-III重症监护数据库中提取的去标识化真实患者数据构建的AIPatient知识图谱。评估结果表明,AIPatient在电子病历(EHR)问答(QA)准确率、可读性、鲁棒性、稳定性和用户体验方面表现出色,为医学教育的变革提供了强大的潜力。

🔬 方法详解

问题定义:医学教育需要高质量、低成本的模拟病人系统,以提供安全的培训环境并支持临床决策。然而,现有的模拟病人系统在模拟复杂医疗状况和医患互动方面存在局限性,难以满足医学教育的需求。现有方法的痛点在于难以兼顾真实性、可扩展性和成本效益。

核心思路:本研究的核心思路是利用大型语言模型(LLM)的强大能力,构建一个基于AI代理的模拟病人系统AIPatient。通过结合检索增强生成(RAG)框架和真实患者数据知识图谱,AIPatient能够高保真地模拟医疗状况和医患互动,从而提供更有效的医学教育工具。

技术框架:AIPatient系统的整体架构包括以下几个主要模块:1) 检索增强生成(RAG)框架:用于从知识图谱中检索相关信息,并生成相应的回复。2) 六个特定任务的代理:分别负责不同的任务,如病史采集、诊断、治疗方案制定等。3) AIPatient知识图谱:基于MIMIC-III重症监护数据库中的去标识化真实患者数据构建,提供丰富的医学知识。4) 用户界面:允许用户与模拟病人进行交互,并获取相应的反馈。

关键创新:本研究最重要的技术创新点在于将大型语言模型与检索增强生成框架相结合,构建了一个能够高保真模拟医疗状况和医患互动的AI代理系统。与现有方法相比,AIPatient能够更好地利用真实患者数据,提供更准确、更可靠的模拟体验。此外,六个特定任务代理的设计使得系统能够进行更复杂的推理和决策。

关键设计:AIPatient的关键设计包括:1) RAG框架的检索策略:如何从知识图谱中检索到最相关的信息。2) 六个特定任务代理的训练:如何训练这些代理以完成各自的任务。3) 知识图谱的构建:如何从真实患者数据中提取有用的信息,并构建成知识图谱。4) 损失函数的设计:用于优化LLM和各个代理的性能。具体的参数设置和网络结构等技术细节在论文中进行了详细描述。

📊 实验亮点

AIPatient在电子病历问答(QA)方面达到了94.15%的准确率,优于部分或未集成代理的版本。知识库的F1得分为0.89。可读性评估显示,Flesch Reading Ease中位数为68.77,Flesch Kincaid Grade中位数为6.4,表明系统易于大多数医学培训生和临床医生理解。鲁棒性和稳定性通过重复试验的非显著方差得到支持(方差分析F值为0.61,p>0.1;F值为0.78,p>0.1)。用户研究表明,AIPatient提供了高保真度、可用性和教育价值,在病史采集方面与人类模拟患者相当或更好。

🎯 应用场景

AIPatient具有广泛的应用前景,可用于医学教育、临床培训、医疗决策支持等领域。它可以为医学生和临床医生提供一个安全、高效的模拟环境,帮助他们提高临床技能和决策能力。此外,AIPatient还可以用于医疗产品的研发和测试,以及患者教育和健康管理等方面,具有重要的实际价值和未来影响。

📄 摘要(原文)

Background: Simulated patient systems are important in medical education and research, providing safe, integrative training environments and supporting clinical decision making. Advances in artificial intelligence (AI), especially large language models (LLMs), can enhance simulated patients by replicating medical conditions and doctor patient interactions with high fidelity and at low cost, but effectiveness and trustworthiness remain open challenges. Methods: We developed AIPatient, a simulated patient system powered by LLM based AI agents. The system uses a retrieval augmented generation (RAG) framework with six task specific agents for complex reasoning. To improve realism, it is linked to the AIPatient knowledge graph built from de identified real patient data in the MIMIC III intensive care database. Results: We evaluated electronic health record (EHR) based medical question answering (QA), readability, robustness, stability, and user experience. AIPatient reached 94.15 percent QA accuracy when all six agents were enabled, outperforming versions with partial or no agent integration. The knowledge base achieved an F1 score of 0.89. Readability scores showed a median Flesch Reading Ease of 68.77 and a median Flesch Kincaid Grade of 6.4, indicating accessibility for most medical trainees and clinicians. Robustness and stability were supported by non significant variance in repeated trials (analysis of variance F value 0.61, p greater than 0.1; F value 0.78, p greater than 0.1). A user study with medical students showed that AIPatient provides high fidelity, usability, and educational value, comparable to or better than human simulated patients for history taking. Conclusions: LLM based simulated patient systems can deliver accurate, readable, and reliable medical encounters and show strong potential to transform medical education.