Deployment and Evaluation of an EHR-integrated, Large Language Model-Powered Tool to Triage Surgical Patients

作者: Jane Wang, Timothy Keyes, April S Liang, Stephen P Ma, Jason Shen, Jerry Liu, Nerissa Ambers, Abby Pandya, Rita Pandya, Jason Hom, Natasha Steele, Jonathan H Chen, Kevin Schulman

分类: cs.CY, cs.AI

发布日期: 2026-03-18

备注: 35 pages, 4 figures, 5 tables

💡 一句话要点

利用EHR集成的LLM工具辅助外科患者分诊，提高手术共管效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 电子健康记录 患者分诊 外科共管 人机协作 临床决策支持 医疗自动化

📋 核心要点

现有外科共管(SCM)模式依赖人工识别患者，效率低下，限制了其临床和经济价值。
论文提出SCM Navigator，一个基于LLM并集成EHR的分诊工具，辅助医生进行SCM推荐。
实验结果表明，该工具具有高灵敏度和中等特异性，能够准确安全地进行患者分诊。

📝 摘要（中文）

外科共管(SCM)是一种循证模型，其中医院医师与外科团队共同管理医学上复杂的围手术期患者。尽管具有临床和经济价值，但SCM受到手动识别合格患者需求的限制。为了确定SCM分诊是否可以自动化，我们在斯坦福医疗保健中心进行了一项前瞻性、非盲研究，其中基于LLM的、电子健康记录(EHR)集成的分诊工具(SCM Navigator)提供SCM建议，然后由医生进行审查。使用术前文档、结构化数据和围手术期发病率的临床标准，SCM Navigator将患者分类为适合、不适合或可能适合SCM。当医生不同意时，他们会给出临床判断并提供自由文本反馈。以医生判断为参考，测量了灵敏度、特异性、阳性预测值和阴性预测值。对自由文本原因进行了主题分类，并对所有假阴性病例和从最大的假阳性类别中随机选择的30个病例进行了手动图表审查。自部署以来，已对6,193个病例进行了分诊，其中1,582个(23%)被建议进行医院医师会诊。SCM Navigator显示出高灵敏度(0.94, 95% CI 0.91-0.96)和中等特异性(0.74, 95% CI 0.71-0.77)。事后图表审查表明，大多数差异反映了临床标准、机构工作流程或医生实践变异性方面的可修改差距，而不是LLM错误分类，后者占19个假阴性病例中的2个(11%)。这些发现表明，基于LLM、EHR集成、人机协作的AI系统可以准确、安全地对SCM外科患者进行分诊，并且AI支持的筛查工具可以增强并可能自动化耗时的临床工作流程。

🔬 方法详解

问题定义：论文旨在解决外科共管(SCM)中手动识别适合患者的低效问题。现有方法依赖人工审查电子健康记录(EHR)，耗时且容易出错，限制了SCM的广泛应用。

核心思路：论文的核心思路是利用大型语言模型(LLM)的自然语言处理能力，自动分析EHR中的文本和结构化数据，根据预定义的临床标准，对患者进行风险分层，并推荐是否需要SCM。这样可以显著减少人工审查的工作量，提高分诊效率。

技术框架：SCM Navigator系统的整体架构包含以下几个主要模块：1) EHR数据提取模块：从EHR系统中提取患者的术前文档、结构化数据等信息。2) LLM推理模块：使用预训练的LLM，结合临床标准，对患者数据进行分析，判断其是否适合SCM。3) 医生审查模块：医生对LLM的推荐结果进行审查，并提供反馈。4) 结果评估模块：对LLM的性能进行评估，并根据医生的反馈进行改进。

关键创新：该论文的关键创新在于将LLM应用于外科患者分诊，并将其与EHR系统集成，实现自动化和智能化的SCM推荐。与传统的手动分诊方法相比，该方法能够显著提高效率和准确性。此外，该系统采用人机协作模式，医生可以对LLM的推荐结果进行审查，确保患者安全。

关键设计：论文中没有详细描述LLM的具体参数设置、损失函数或网络结构。但提到使用了术前文档、结构化数据和围手术期发病率的临床标准作为LLM的输入。医生审查模块允许医生提供自由文本反馈，这些反馈被用于分析LLM的错误原因，并改进临床标准和系统设计。具体LLM模型选择和训练细节未知。

📊 实验亮点

SCM Navigator在6,193个病例中进行了测试，其中1,582个(23%)被推荐进行医院医师会诊。实验结果显示，该系统具有高灵敏度(0.94, 95% CI 0.91-0.96)和中等特异性(0.74, 95% CI 0.71-0.77)。事后分析表明，大部分错误是由于临床标准或医生实践差异造成的，而非LLM的错误分类。

🎯 应用场景

该研究成果可应用于医院的术前患者管理流程，辅助医生进行快速准确的风险评估和分诊，优化医疗资源配置，提高手术效率和患者安全性。未来，该技术可扩展到其他疾病领域的患者管理，例如内科疾病、急诊科等，实现更广泛的临床应用。

📄 摘要（原文）

Surgical co-management (SCM) is an evidence-based model in which hospitalists jointly manage medically complex perioperative patients alongside surgical teams. Despite its clinical and financial value, SCM is limited by the need to manually identify eligible patients. To determine whether SCM triage can be automated, we conducted a prospective, unblinded study at Stanford Health Care in which an LLM-based, electronic health record (EHR)-integrated triage tool (SCM Navigator) provided SCM recommendations followed by physician review. Using pre-operative documentation, structured data, and clinical criteria for perioperative morbidity, SCM Navigator categorized patients as appropriate, not appropriate, or possibly appropriate for SCM. Faculty indicated their clinical judgment and provided free-text feedback when they disagreed. Sensitivity, specificity, positive predictive value, and negative predictive value were measured using physician determinations as a reference. Free-text reasons were thematically categorized, and manual chart review was conducted on all false-negative cases and 30 randomly selected cases from the largest false-positive category. Since deployment, 6,193 cases have been triaged, of which 1,582 (23%) were recommended for hospitalist consultation. SCM Navigator displayed high sensitivity (0.94, 95% CI 0.91-0.96) and moderate specificity (0.74, 95% CI 0.71-0.77). Post-hoc chart review suggested most discrepancies reflect modifiable gaps in clinical criteria, institutional workflow, or physician practice variability rather than LLM misclassification, which accounted for 2 of 19 (11%) false-negative cases. These findings demonstrate that an LLM-powered, EHR-integrated, human-in-the-loop AI system can accurately and safely triage surgical patients for SCM, and that AI-enabled screening tools can augment and potentially automate time-intensive clinical workflows.

Deployment and Evaluation of an EHR-integrated, Large Language Model-Powered Tool to Triage Surgical Patients

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理