Retrieval-Augmented Large Language Models for Schema-Constrained Clinical Information Extraction
作者: A H M Rezaul Karim, Ozlem Uzuner
分类: cs.CL, cs.AI
发布日期: 2026-05-14
💡 一句话要点
提出检索增强的LLM用于模式约束的临床信息抽取,提升护士-患者对话记录结构化效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 大型语言模型 临床信息抽取 模式约束 护士-患者对话
📋 核心要点
- 临床医生花费大量时间在文档记录上,将护士-患者对话记录结构化是挑战。
- 提出检索增强生成(RAG)流水线,结合模式约束提示和二次审核。
- 使用GPT-5.2,结合完整模式、RAG和二次审核,F1分数达到80.36%。
📝 摘要(中文)
会话式的护士-患者对话记录包含可执行的观察结果,但大规模地将这些记录转换为结构化表示仍然具有挑战性。文档负担巨大,之前的研究表明,临床医生将大量工作时间用于文档和相关的案头工作,而不是直接的患者护理。MEDIQA-SYNUR专注于从会话式的护士-患者对话记录中提取观察结果,要求系统将这些叙述标准化为具有值类型约束的预定义模式。我们提出了一种模块化的检索增强生成(RAG)流水线,该流水线使用训练集作为示例语料库,结合模式约束提示(完整模式与修剪的候选模式)、确定性的基于模式的后处理和二次审核,并采用两个LLM骨干网络:Llama-4-Scout-17B-16E-Instruct和GPT-5.2,以及相应的RAG嵌入模型。我们最好的配置使用GPT-5.2与完整模式、RAG和二次审核,实现了80.36%的F1分数。总的来说,我们的结果表明,RAG始终提高性能,而模式约束的最佳程度取决于模型,二次审核通过纠正剩余的模式一致性错误,产生了适度的额外收益。
🔬 方法详解
问题定义:论文旨在解决从护士-患者对话记录中自动提取结构化临床信息的问题。现有方法难以高效且准确地将非结构化的对话文本转换为预定义的模式,导致临床医生需要花费大量时间进行手动记录,效率低下。
核心思路:论文的核心思路是利用检索增强生成(RAG)框架,结合大型语言模型(LLM)的生成能力和外部知识库的检索能力,从而更好地理解和抽取临床信息。通过检索与输入对话相关的训练样本,为LLM提供上下文信息,提高其生成结构化数据的准确性和可靠性。
技术框架:该方法采用模块化的RAG流水线,主要包含以下几个阶段:1) 检索:使用嵌入模型将输入对话和训练集中的样本进行编码,然后检索最相关的样本。2) 提示:将检索到的样本和模式信息作为提示输入LLM,指导其生成结构化数据。论文尝试了两种模式约束提示方式:完整模式和修剪的候选模式。3) 生成:LLM根据提示生成结构化数据。4) 后处理:采用确定性的基于模式的后处理方法,对生成的数据进行清洗和校正,确保其符合预定义的模式。5) 二次审核:使用另一个LLM对后处理后的数据进行审核,纠正剩余的模式一致性错误。
关键创新:该论文的关键创新在于将RAG框架应用于模式约束的临床信息抽取任务,并探索了不同的模式约束提示方式和后处理策略。通过结合检索和生成,该方法能够更好地利用训练数据中的知识,提高结构化数据的准确性和可靠性。此外,二次审核机制能够进一步提高模式一致性。
关键设计:论文使用了Llama-4-Scout-17B-16E-Instruct和GPT-5.2两种LLM作为骨干网络,并为每种LLM选择了相应的嵌入模型。论文比较了完整模式和修剪的候选模式两种提示方式,并采用确定性的基于模式的后处理方法。二次审核阶段也使用了LLM进行错误纠正。具体的参数设置和损失函数等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RAG始终能够提高性能。使用GPT-5.2,结合完整模式、RAG和二次审核,该方法在MEDIQA-SYNUR数据集上实现了80.36%的F1分数。二次审核也带来了适度的性能提升,证明了其有效性。这些结果表明,该方法在模式约束的临床信息抽取任务中具有很强的竞争力。
🎯 应用场景
该研究成果可应用于临床决策支持系统、电子病历管理和医疗质量评估等领域。通过自动提取和结构化护士-患者对话记录中的信息,可以减轻临床医生的文档负担,提高工作效率,并为患者提供更优质的医疗服务。未来,该技术有望扩展到其他类型的医疗文本,例如医生笔记和医学文献。
📄 摘要(原文)
Conversational nurse-patient transcripts contain actionable observations, but converting these transcripts into structured representations at scale remains challenging. Documentation burden is substantial, with prior studies showing clinicians spend large portions of their workday on documentation and related desk work rather than direct patient care. MEDIQA-SYNUR focuses on observation extraction from conversational nurse-patient transcripts, requiring systems to normalize these narratives into a predefined schema with value-type constraints. We propose a modular retrieval-augmented generation (RAG) pipeline that uses the training set as an exemplar corpus, combines schema-constrained prompting (full schema vs. pruned candidate schema), deterministic schema-based postprocessing, and a second-pass audit, with two LLM backbones: Llama-4-Scout-17B-16E-Instruct and GPT-5.2 with corresponding embedding models for RAG. Our best configuration uses GPT-5.2 with full schema, RAG, and a second-pass auditing, achieving 80.36% F1 score. Overall, our results show that RAG consistently improves performance, while the optimal degree of schema constraint depends on the model, and second-pass auditing yields modest additional gains by correcting residual schema-adherence errors.