Real-world Deployment and Evaluation of PErioperative AI CHatbot (PEACH) -- a Large Language Model Chatbot for Perioperative Medicine

📄 arXiv: 2412.18096v1 📥 PDF

作者: Yu He Ke, Liyuan Jin, Kabilan Elangovan, Bryan Wen Xi Ong, Chin Yang Oh, Jacqueline Sim, Kenny Wei-Tsen Loh, Chai Rick Soh, Jonathan Ming Hua Cheng, Aaron Kwang Yang Lee, Daniel Shu Wei Ting, Nan Liu, Hairil Rizal Abdullah

分类: cs.AI

发布日期: 2024-12-24

备注: 21 pages, 3 figures, 1 graphical abstract


💡 一句话要点

PEACH:基于大语言模型的围术期医学AI聊天机器人,提升决策效率与一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 围术期医学 人工智能聊天机器人 临床决策支持 医疗AI

📋 核心要点

  1. 围术期临床决策复杂且耗时,现有方法难以保证一致性和效率。
  2. PEACH通过集成本地指南的大语言模型,为临床医生提供快速、准确的决策支持。
  3. 实验表明,PEACH显著提高了决策速度和一致性,并具有良好的准确性和安全性。

📝 摘要(中文)

本研究介绍了一种名为PEACH(PErioperative AI CHatbot)的围术期人工智能聊天机器人的开发与评估。PEACH是一个安全的大语言模型(LLM)系统,集成了本地围术期指南,旨在支持术前临床决策。PEACH嵌入了35项机构围术期协议,部署在新加坡政府开发的Pair Chat中的安全Claude 3.5 Sonet LLM框架内,并使用真实世界数据进行了静默测试,评估了其准确性、安全性和可用性。研究对偏差和幻觉进行了分类,并使用技术接受模型(TAM)评估了用户反馈。在初始静默部署后,对一个协议进行了更新。在240次真实临床迭代中,PEACH的第一代准确率为97.5%,三次迭代后的总体准确率为96.7%。更新后的PEACH准确率提高到97.9%。临床医生报告称,PEACH在95%的案例中加快了决策速度,且PEACH内部的评分者间信度kappa值为0.772-0.893,主治医生间的kappa值为0.610-0.784。PEACH是一种准确、适应性强的工具,可提高围术期决策的一致性和效率。未来的研究应探索其在不同专业中的可扩展性及其对临床结果的影响。

🔬 方法详解

问题定义:围术期医学涉及术前、术中和术后的管理,临床决策复杂且依赖于大量指南和协议。现有方法,如人工查阅指南,耗时且容易出错,不同医生之间可能存在决策差异。因此,需要一种能够快速、准确地提供决策支持的工具,以提高效率和一致性。

核心思路:本研究的核心思路是利用大语言模型(LLM)的强大自然语言处理能力,将围术期指南和协议嵌入到LLM中,构建一个智能聊天机器人PEACH。临床医生可以通过与PEACH交互,快速获取所需的决策信息,从而提高决策效率和一致性。这种设计旨在模拟专家咨询过程,提供个性化的建议。

技术框架:PEACH的整体架构包括以下几个主要模块:1) 数据准备:将35项机构围术期协议进行结构化处理,使其能够被LLM理解和利用。2) LLM选择与集成:选择Claude 3.5 Sonet LLM,并将其集成到新加坡政府开发的Pair Chat平台中,确保安全性。3) 聊天机器人开发:构建PEACH聊天机器人,使其能够理解临床医生的提问,并根据嵌入的指南和协议提供相应的建议。4) 评估与迭代:通过静默部署和真实世界数据,评估PEACH的准确性、安全性和可用性,并根据反馈进行迭代更新。

关键创新:PEACH的关键创新在于将大语言模型应用于围术期医学领域,构建了一个能够提供实时决策支持的智能聊天机器人。与传统的基于规则的专家系统相比,PEACH具有更强的自然语言理解能力和知识推理能力,能够更好地适应复杂的临床场景。此外,PEACH还具有自学习和迭代更新的能力,能够不断提高其准确性和可靠性。

关键设计:PEACH的关键设计包括:1) 选择Claude 3.5 Sonet LLM,因为它在安全性和性能方面表现出色。2) 将围术期指南和协议进行结构化处理,并嵌入到LLM中,确保LLM能够准确地理解和利用这些信息。3) 设计用户友好的交互界面,使临床医生能够轻松地与PEACH进行交互。4) 采用静默部署和真实世界数据进行评估,确保PEACH在实际临床环境中的可用性和可靠性。

📊 实验亮点

PEACH在240次真实临床迭代中,第一代准确率达到97.5%,更新后提高到97.9%,显著高于95%的基线水平(p = 0.018)。临床医生报告称,PEACH在95%的案例中加快了决策速度。PEACH内部的评分者间信度kappa值为0.772-0.893,表明其决策具有高度一致性。这些结果表明,PEACH是一种准确、高效、一致的围术期决策支持工具。

🎯 应用场景

PEACH具有广泛的应用前景,可应用于围术期医学的各个方面,例如术前评估、麻醉管理、术后护理等。通过提供快速、准确的决策支持,PEACH可以提高临床医生的工作效率,减少医疗差错,改善患者的治疗效果。未来,PEACH还可以扩展到其他医学领域,为更多的临床医生提供智能化的决策支持。

📄 摘要(原文)

Large Language Models (LLMs) are emerging as powerful tools in healthcare, particularly for complex, domain-specific tasks. This study describes the development and evaluation of the PErioperative AI CHatbot (PEACH), a secure LLM-based system integrated with local perioperative guidelines to support preoperative clinical decision-making. PEACH was embedded with 35 institutional perioperative protocols in the secure Claude 3.5 Sonet LLM framework within Pair Chat (developed by Singapore Government) and tested in a silent deployment with real-world data. Accuracy, safety, and usability were assessed. Deviations and hallucinations were categorized based on potential harm, and user feedback was evaluated using the Technology Acceptance Model (TAM). Updates were made after the initial silent deployment to amend one protocol. In 240 real-world clinical iterations, PEACH achieved a first-generation accuracy of 97.5% (78/80) and an overall accuracy of 96.7% (232/240) across three iterations. The updated PEACH demonstrated improved accuracy of 97.9% (235/240), with a statistically significant difference from the null hypothesis of 95% accuracy (p = 0.018, 95% CI: 0.952-0.991). Minimal hallucinations and deviations were observed (both 1/240 and 2/240, respectively). Clinicians reported that PEACH expedited decisions in 95% of cases, and inter-rater reliability ranged from kappa 0.772-0.893 within PEACH and 0.610-0.784 among attendings. PEACH is an accurate, adaptable tool that enhances consistency and efficiency in perioperative decision-making. Future research should explore its scalability across specialties and its impact on clinical outcomes.