Few-Shot Large Language Models for Actionable Triage Categorization of Online Patient Inquiries

📄 arXiv: 2605.15680v1 📥 PDF

作者: Liqi Zhou, Jiafu Li

分类: cs.CL, cs.LG, q-bio.QM

发布日期: 2026-05-15

备注: 4 figures, 19 tables, 23 pages (including appendix and reference)


💡 一句话要点

利用少量样本的大语言模型进行在线患者咨询的可执行分诊分类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 少量样本学习 在线患者咨询 分诊 医疗健康 自然语言处理 提示学习

📋 核心要点

  1. 在线患者咨询信息不完整且非正式,现有方法难以准确分诊到合适的临床级别。
  2. 利用少量样本提示大语言模型,探索其在低资源条件下进行在线患者咨询分诊的能力。
  3. 实验结果表明,少量样本提示的LLM在分诊任务上优于传统监督学习方法,但仍需人工干预。

📝 摘要(中文)

在线患者咨询通常是非正式、不完整的,并且是在专业评估之前编写的,但仍然需要将其路由到适当级别的临床随访。本文研究了一个四类可执行的分诊任务——自我护理、安排就诊、紧急临床医生复审或紧急转诊,并探讨了在低资源标注条件下,提示式大语言模型(LLM)是否可以支持这种路由。使用公开的HealthCareMagic-100K语料库,构建了一个包含300个样本的人工校准黄金评估集、一个包含700个样本的自动标注白银训练集和一个包含40个样本的少量样本池。将基于白银标签训练的词频-逆文档频率(TF-IDF)和生物医学文本挖掘双向编码器表示(BioBERT)基线,与分别在0-shot、4-shot和12-shot条件下提示的六个LLM进行了比较。相应地,使用宏平均F1值以及安全意识指标(包括紧急召回率、低分诊率和严重低分诊率)进行评估。最强的LLM(Claude Haiku 4.5,12-shot)达到了0.475的宏平均F1值,超过了最佳监督基线(BioBERT,0.378),但置信区间重叠。少量样本提示和双模型一致性在标签依赖方面有所帮助:自我护理协议是可靠的,紧急临床医生复审则不然。结论是,LLM可以支持分诊优先级排序和选择性人工审查,但不能支持自主部署。

🔬 方法详解

问题定义:论文旨在解决在线患者咨询的分诊问题,即将患者的咨询信息自动分类到自我护理、安排就诊、紧急临床医生复审或紧急转诊四个类别。现有方法,如传统的机器学习模型,需要大量的标注数据进行训练,而在医疗领域,高质量的标注数据获取成本很高。此外,患者咨询的非正式性和不完整性也增加了分诊的难度。

核心思路:论文的核心思路是利用大语言模型(LLM)的少量样本学习能力,通过少量的人工标注样本,提示LLM进行分诊。这种方法旨在减少对大量标注数据的依赖,并利用LLM的语言理解能力来处理患者咨询的非正式性和不完整性。

技术框架:论文的技术框架主要包括以下几个步骤:1) 数据集构建:构建包含人工标注黄金评估集、自动标注白银训练集和少量样本池的数据集。2) 基线模型训练:使用TF-IDF和BioBERT等传统机器学习模型在白银训练集上进行训练。3) LLM提示:使用少量样本池中的样本,提示LLM进行分诊。4) 评估:使用黄金评估集评估LLM和基线模型的性能,并使用宏平均F1值以及安全意识指标(包括紧急召回率、低分诊率和严重低分诊率)进行评估。

关键创新:论文的关键创新在于利用少量样本学习的大语言模型进行在线患者咨询的分诊。与传统的监督学习方法相比,这种方法可以减少对大量标注数据的依赖,并利用LLM的语言理解能力来处理患者咨询的非正式性和不完整性。此外,论文还提出了安全意识指标,用于评估分诊的安全性。

关键设计:论文的关键设计包括:1) 数据集的构建,包括人工标注的黄金评估集和自动标注的白银训练集,以保证评估的准确性和训练数据的规模。2) 少量样本提示策略,通过选择合适的少量样本,引导LLM进行分诊。3) 安全意识指标的引入,包括紧急召回率、低分诊率和严重低分诊率,以评估分诊的安全性。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用12个样本提示的Claude Haiku 4.5模型在宏平均F1值上达到了0.475,超过了最佳监督基线BioBERT(0.378)。这表明少量样本提示的大语言模型在在线患者咨询分诊任务上具有潜力。此外,研究还发现,少量样本提示和双模型一致性在标签依赖方面有所帮助,例如自我护理协议是可靠的。

🎯 应用场景

该研究成果可应用于在线医疗咨询平台,辅助医生进行初步的分诊,提高工作效率,并确保患者得到及时和适当的医疗服务。通过减少对大量标注数据的依赖,该方法可以降低部署成本,并促进在线医疗服务的普及。未来的研究可以探索如何进一步提高LLM分诊的准确性和安全性,并将其应用于更广泛的医疗领域。

📄 摘要(原文)

Online patient inquiries are often informal, incomplete, and written before professional assessment, yet they must still be routed to an appropriate level of clinical follow-up. We study this as a four-class actionable triage task -- self-care, schedule-visit, urgent-clinician-review, or emergency-referral, and ask whether prompted large language models (LLMs) can support such routing under low-resource labeling conditions. Using the public HealthCareMagic-100K corpus, we construct a 300-example human calibrated gold evaluation set, a 700-example auto-labeled silver training set, and a 40-example few-shot pool. We compare Term Frequency-Inverse Document Frequency (TF-IDF) and Bidirectional Encoder Representations from Transformers for Biomedical Text Mining (BioBERT) baselines train on silver labels against six prompted LLMs under 0-shot, 4-shot, and 12-shot conditions respectively. Accordingly, we evaluate with macro-$F_1$ alongside safety-aware metrics, including emergency-recall, under-triage rate, and severe under-triage rate. The strongest LLM (Claude Haiku 4.5, 12-shot) reaches macro-$F_1$ 0.475, exceeding the best supervised baseline (BioBERT, 0.378) on point estimate, with overlapping confidence intervals. Few-shot prompting and two-model agreement help in label-dependent ways: self-care agreement is reliable, urgent-clinician-review is not. We conclude that LLMs can support triage prioritization and selective human review, but not autonomous deployment.