Task as Context Prompting for Accurate Medical Symptom Coding Using Large Language Models

📄 arXiv: 2504.03051v1 📥 PDF

作者: Chengyang He, Wenlong Zhang, Violet Xinying Chen, Yue Ning, Ping Wang

分类: cs.CL, cs.AI

发布日期: 2025-04-03

备注: 11 pages, 5 figures, 5 Tables, ACM/IEEE International Conference on Connected Health: Applications, Systems and Engineering Technologies (CHASE '25), June 24--26, 2025, New York, NY, USA

DOI: 10.1145/3721201.3721383


💡 一句话要点

提出TACO Prompting框架,用于提升LLM在医学症状编码任务中的准确性和灵活性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学症状编码 大型语言模型 Prompt工程 临床文本处理 药物警戒

📋 核心要点

  1. 传统症状编码方法将提取和链接视为独立流程,难以处理临床叙述的复杂性和变异性,尤其是在罕见病例中。
  2. TACO Prompting框架的核心思想是将任务特定上下文嵌入到LLM提示中,从而统一提取和链接任务,提升模型性能。
  3. 实验结果表明,TACO Prompting能够有效提高LLM在症状编码任务中的准确性和灵活性,为临床文本处理提供新思路。

📝 摘要(中文)

本文提出了一种名为Task as Context (TACO) Prompting的新框架,旨在提高大型语言模型(LLMs)在医学症状编码任务中的准确性。该框架通过将任务特定上下文嵌入到LLM提示中,统一了症状提取和链接任务。此外,本文还引入了SYMPCODER数据集,该数据集由人工标注的疫苗不良事件报告系统(VAERS)报告组成,并提出了一个两阶段评估框架,以全面评估症状链接和提及保真度。对包括Llama2-chat、Jackalope-7b、GPT-3.5 Turbo、GPT-4 Turbo和GPT-4o在内的多个LLM的综合评估表明,TACO在提高症状编码等定制任务的灵活性和准确性方面非常有效,为更具体的编码任务和推进临床文本处理方法铺平了道路。

🔬 方法详解

问题定义:本文旨在解决医学症状编码任务中,现有方法无法有效处理临床文本复杂性和变异性的问题。传统方法将症状提取和链接作为独立的流程,导致信息割裂,难以准确识别和链接症状,尤其是在处理罕见病例时,性能显著下降。

核心思路:论文的核心思路是将任务本身作为上下文信息融入到LLM的Prompt中,从而引导LLM更好地理解任务目标,统一症状提取和链接两个子任务。通过这种方式,模型可以更好地利用上下文信息,提高编码的准确性和一致性。

技术框架:TACO Prompting框架主要包含以下几个步骤:首先,构建包含任务特定信息的Prompt,例如任务描述、示例等。然后,将构建好的Prompt输入到LLM中,让LLM执行症状提取和链接任务。最后,使用两阶段评估框架对模型的性能进行评估,包括症状链接和提及保真度。

关键创新:TACO Prompting的关键创新在于将任务本身作为上下文信息融入到LLM的Prompt中。与传统方法相比,TACO Prompting能够更好地利用上下文信息,统一症状提取和链接任务,从而提高编码的准确性和一致性。这种方法可以灵活应用于不同的LLM和不同的症状编码任务。

关键设计:论文中使用了人工标注的SYMPCODER数据集,该数据集包含疫苗不良事件报告系统(VAERS)报告。两阶段评估框架包括症状链接和提及保真度两个指标。实验中对比了多个LLM,包括Llama2-chat、Jackalope-7b、GPT-3.5 Turbo、GPT-4 Turbo和GPT-4o,以验证TACO Prompting的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TACO Prompting在多个LLM上均取得了显著的性能提升。例如,在SYMPCODER数据集上,TACO Prompting能够有效提高症状编码的准确性和灵活性,优于传统的独立提取和链接方法。具体性能数据和提升幅度在论文中有详细展示。

🎯 应用场景

该研究成果可应用于药物警戒和安全监测领域,通过准确的医学症状编码,能够更有效地识别和分析疫苗或其他药物的不良反应,从而提高药物安全性。此外,该方法还可以推广到其他临床文本处理任务中,例如疾病诊断、治疗方案推荐等,具有广阔的应用前景。

📄 摘要(原文)

Accurate medical symptom coding from unstructured clinical text, such as vaccine safety reports, is a critical task with applications in pharmacovigilance and safety monitoring. Symptom coding, as tailored in this study, involves identifying and linking nuanced symptom mentions to standardized vocabularies like MedDRA, differentiating it from broader medical coding tasks. Traditional approaches to this task, which treat symptom extraction and linking as independent workflows, often fail to handle the variability and complexity of clinical narratives, especially for rare cases. Recent advancements in Large Language Models (LLMs) offer new opportunities but face challenges in achieving consistent performance. To address these issues, we propose Task as Context (TACO) Prompting, a novel framework that unifies extraction and linking tasks by embedding task-specific context into LLM prompts. Our study also introduces SYMPCODER, a human-annotated dataset derived from Vaccine Adverse Event Reporting System (VAERS) reports, and a two-stage evaluation framework to comprehensively assess both symptom linking and mention fidelity. Our comprehensive evaluation of multiple LLMs, including Llama2-chat, Jackalope-7b, GPT-3.5 Turbo, GPT-4 Turbo, and GPT-4o, demonstrates TACO's effectiveness in improving flexibility and accuracy for tailored tasks like symptom coding, paving the way for more specific coding tasks and advancing clinical text processing methodologies.