A Multi-Stage Validation Framework for Trustworthy Large-scale Clinical Information Extraction using Large Language Models
作者: Maria Mahbub, Gregory M. Dams, Josh Arnold, Caitlin Rizy, Sudarshan Srinivasan, Elliot M. Fielstein, Minu A. Aghevli, Kamonica L. Craig, Elizabeth M. Oliva, Joseph Erdos, Jodie Trafton, Ioana Danciu
分类: cs.CL, cs.AI, cs.IR
发布日期: 2026-04-07
💡 一句话要点
提出多阶段验证框架,用于大规模临床信息抽取,提升LLM应用的可信度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 临床信息抽取 多阶段验证 弱监督学习 可信度评估
📋 核心要点
- 现有临床信息抽取方法依赖大量人工标注或不完整结构化数据,难以在大规模人群中应用。
- 提出多阶段验证框架,通过弱监督方式,集成多种验证手段,量化不确定性并识别错误模式。
- 实验表明,该框架在物质使用障碍诊断抽取中表现良好,预测后续护理参与的准确性优于传统方法。
📝 摘要(中文)
大型语言模型(LLM)在从非结构化健康记录中提取临床信息方面展现出潜力,但缺乏可扩展且可信的验证方法限制了其在实际环境中的应用。传统的评估方法严重依赖于需要大量标注的参考标准或不完整的结构化数据,限制了其在大规模人群中的可行性。本文提出了一种基于LLM的临床信息抽取的多阶段验证框架,该框架能够在弱监督下进行严格评估。该框架集成了提示校准、基于规则的合理性过滤、语义基础评估、使用独立的高容量judge LLM进行有针对性的验证性评估、选择性专家审查和外部预测有效性分析,以量化不确定性并描述误差模式,而无需进行详尽的手动标注。我们将此框架应用于从919,783份临床记录中提取11个物质类别的物质使用障碍(SUD)诊断。基于规则的过滤和语义基础移除了14.59%的LLM阳性抽取结果,这些结果缺乏支持、不相关或结构上不合理。对于高不确定性案例,judge LLM的评估结果与主题专家审查显示出高度一致性(Gwet's AC1=0.80)。使用judge评估的输出作为参考,主要的LLM在宽松匹配标准下实现了0.80的F1分数。LLM提取的SUD诊断比结构化数据基线更准确地预测了后续的SUD专科护理参与情况(AUC=0.80)。这些发现表明,无需进行大量标注评估,基于LLM的临床信息抽取的可扩展、可信部署是可行的。
🔬 方法详解
问题定义:论文旨在解决大规模临床信息抽取中,由于缺乏可扩展且可信的验证方法,导致大型语言模型(LLM)难以在实际环境中应用的问题。现有方法依赖于大量人工标注或不完整的结构化数据,成本高昂且难以推广。
核心思路:论文的核心思路是提出一个多阶段验证框架,通过弱监督的方式,在不需要大量人工标注的情况下,对LLM抽取结果进行多层次的验证和评估。该框架旨在量化LLM抽取结果的不确定性,识别错误模式,并最终提高LLM在临床信息抽取任务中的可信度和准确性。
技术框架:该框架包含以下几个主要阶段: 1. 提示校准:优化LLM的输入提示,提高抽取准确性。 2. 基于规则的合理性过滤:使用预定义的规则过滤掉不合理或不相关的抽取结果。 3. 语义基础评估:评估抽取结果是否在上下文中具有语义一致性。 4. judge LLM验证:使用一个独立的高容量LLM(judge LLM)对高不确定性案例进行验证性评估。 5. 选择性专家审查:对于judge LLM无法确定或存在争议的案例,进行人工专家审查。 6. 外部预测有效性分析:通过分析抽取结果与外部数据的关联性,评估抽取结果的有效性。
关键创新:该框架的关键创新在于其多阶段验证的思路,以及在每个阶段采用不同的验证方法。通过集成多种验证手段,该框架能够在弱监督的条件下,对LLM抽取结果进行全面而深入的评估。此外,使用judge LLM进行验证性评估也是一个重要的创新点,可以有效降低人工标注的成本。
关键设计: * 提示工程:针对不同的抽取任务,设计合适的提示语,以提高LLM的抽取准确性。 * 规则设计:根据临床知识和数据特点,设计合理的过滤规则,以排除不合理的抽取结果。 * judge LLM选择:选择具有较高容量和较强推理能力的LLM作为judge LLM。 * 不确定性阈值:设置合适的不确定性阈值,以确定哪些案例需要进行judge LLM验证或人工专家审查。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在物质使用障碍(SUD)诊断抽取任务中表现出色。通过多阶段验证,移除了14.59%的不合理抽取结果。judge LLM的评估结果与专家审查高度一致(Gwet's AC1=0.80)。使用judge评估结果作为参考,主要LLM的F1 score达到0.80。此外,LLM提取的SUD诊断比结构化数据基线更准确地预测了后续的SUD专科护理参与情况(AUC=0.80)。
🎯 应用场景
该研究成果可广泛应用于医疗健康领域,例如疾病诊断、药物研发、患者管理等。通过自动抽取临床记录中的关键信息,可以提高医疗效率,降低医疗成本,并为临床决策提供更准确的依据。未来,该框架可以扩展到其他类型的文本数据,例如法律文件、金融报告等。
📄 摘要(原文)
Large language models (LLMs) show promise for extracting clinically meaningful information from unstructured health records, yet their translation into real-world settings is constrained by the lack of scalable and trustworthy validation approaches. Conventional evaluation methods rely heavily on annotation-intensive reference standards or incomplete structured data, limiting feasibility at population scale. We propose a multi-stage validation framework for LLM-based clinical information extraction that enables rigorous assessment under weak supervision. The framework integrates prompt calibration, rule-based plausibility filtering, semantic grounding assessment, targeted confirmatory evaluation using an independent higher-capacity judge LLM, selective expert review, and external predictive validity analysis to quantify uncertainty and characterize error modes without exhaustive manual annotation. We applied this framework to extraction of substance use disorder (SUD) diagnoses across 11 substance categories from 919,783 clinical notes. Rule-based filtering and semantic grounding removed 14.59% of LLM-positive extractions that were unsupported, irrelevant, or structurally implausible. For high-uncertainty cases, the judge LLM's assessments showed substantial agreement with subject matter expert review (Gwet's AC1=0.80). Using judge-evaluated outputs as references, the primary LLM achieved an F1 score of 0.80 under relaxed matching criteria. LLM-extracted SUD diagnoses also predicted subsequent engagement in SUD specialty care more accurately than structured-data baselines (AUC=0.80). These findings demonstrate that scalable, trustworthy deployment of LLM-based clinical information extraction is feasible without annotation-intensive evaluation.