QUAD-LLM-MLTC: Large Language Models Ensemble Learning for Healthcare Text Multi-Label Classification

📄 arXiv: 2502.14189v2 📥 PDF

作者: Hajar Sakai, Sarah S. Lam

分类: cs.CL

发布日期: 2025-02-20 (更新: 2025-03-03)


💡 一句话要点

QUAD-LLM-MLTC:利用大语言模型集成学习进行医疗文本多标签分类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多标签分类 大型语言模型 集成学习 医疗文本 零样本学习

📋 核心要点

  1. 现有医疗文本多标签分类方法难以有效处理标注数据稀缺和文本语义复杂性问题。
  2. QUAD-LLM-MLTC方法通过集成BERT、PEGASUS、GPT-4o和BART四个LLM,实现零样本多标签分类。
  3. 实验结果表明,该方法在F1和Micro-F1分数上均有显著提升,分别达到78.17%和80.16%。

📝 摘要(中文)

医疗文本数据的爆炸式增长给自动多标签文本分类(MLTC)带来了独特的挑战,主要原因是训练所需的标注文本稀缺及其细微差别。传统的机器学习模型通常无法完全捕捉表达的主题。然而,大型语言模型(LLM)在各个领域的众多自然语言处理(NLP)任务中表现出卓越的有效性,通过提示工程展示了令人印象深刻的计算效率和对无监督学习的适用性。因此,这些LLM有望实现医疗叙述的有效MLTC。然而,在处理各种标签时,不同的提示可能与主题相关。为了应对这些挑战,本文提出了QUAD-LLM-MLTC方法,利用了GPT-4o、BERT、PEGASUS和BART四种LLM的优势。QUAD-LLM-MLTC以顺序流水线方式运行,其中BERT提取关键token,PEGASUS增强文本数据,GPT-4o进行分类,BART提供主题分配概率,从而产生四个分类结果,全部在0-shot设置下进行。然后使用集成学习组合输出,并通过元分类器处理以产生最终的MLTC结果。使用三个标注文本样本评估该方法,并将其与传统方法和单模型方法进行对比。结果表明,在分类的F1分数和一致性方面,大多数主题都有显著改进(F1和Micro-F1分数分别为78.17%和80.16%,标准差分别为0.025和0.011)。这项研究推进了使用LLM的MLTC,并提供了一种高效且可扩展的解决方案,无需进一步训练即可快速分类医疗保健相关文本数据。

🔬 方法详解

问题定义:论文旨在解决医疗文本多标签分类问题,即如何自动将医疗文本分配到多个预定义的类别。现有方法,特别是传统的机器学习模型,在处理医疗文本时面临标注数据不足和文本语义复杂性的挑战,导致分类性能不佳。此外,针对不同标签设计合适的prompt也是一个挑战。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大zero-shot学习能力,并通过集成多个LLM来提高分类的准确性和鲁棒性。通过结合不同LLM的优势,例如BERT的token提取、PEGASUS的文本增强、GPT-4o的分类能力和BART的概率预测,实现更全面的文本理解和更准确的标签预测。

技术框架:QUAD-LLM-MLTC方法采用顺序流水线结构,包含以下四个主要阶段: 1. Token提取:使用BERT模型从输入文本中提取关键token。 2. 文本增强:使用PEGASUS模型对文本数据进行增强,以扩充训练数据。 3. 分类:使用GPT-4o模型对增强后的文本进行分类,生成初步的标签预测。 4. 概率预测:使用BART模型预测每个标签的分配概率。 最后,通过集成学习方法(元分类器)将四个模型的输出进行融合,得到最终的多标签分类结果。

关键创新:该方法最重要的创新点在于集成了四个不同的LLM,并利用它们各自的优势来完成多标签分类任务。这种集成学习的方法能够有效提高分类的准确性和鲁棒性,尤其是在零样本学习的场景下。此外,该方法无需额外的训练数据,降低了标注成本。

关键设计:该方法采用零样本学习设置,无需针对特定数据集进行微调。集成的元分类器具体实现方式未知,论文中没有详细描述。各个LLM的具体prompt设计也未知,但强调了针对不同标签可能需要不同的prompt。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,QUAD-LLM-MLTC方法在医疗文本多标签分类任务中取得了显著的性能提升。相较于传统方法和单模型方法,该方法在F1分数和Micro-F1分数上分别达到了78.17%和80.16%,标准差分别为0.025和0.011。这表明该方法具有较高的准确性和稳定性。

🎯 应用场景

该研究成果可应用于医疗领域,例如自动诊断编码、医学文献分类、患者健康记录分析等。通过快速准确地对医疗文本进行分类,可以提高医疗服务的效率和质量,辅助医生进行决策,并促进医学研究的进展。该方法无需大量标注数据,具有很高的实用价值和推广潜力。

📄 摘要(原文)

The escalating volume of collected healthcare textual data presents a unique challenge for automated Multi-Label Text Classification (MLTC), which is primarily due to the scarcity of annotated texts for training and their nuanced nature. Traditional machine learning models often fail to fully capture the array of expressed topics. However, Large Language Models (LLMs) have demonstrated remarkable effectiveness across numerous Natural Language Processing (NLP) tasks in various domains, which show impressive computational efficiency and suitability for unsupervised learning through prompt engineering. Consequently, these LLMs promise an effective MLTC of medical narratives. However, when dealing with various labels, different prompts can be relevant depending on the topic. To address these challenges, the proposed approach, QUAD-LLM-MLTC, leverages the strengths of four LLMs: GPT-4o, BERT, PEGASUS, and BART. QUAD-LLM-MLTC operates in a sequential pipeline in which BERT extracts key tokens, PEGASUS augments textual data, GPT-4o classifies, and BART provides topics' assignment probabilities, which results in four classifications, all in a 0-shot setting. The outputs are then combined using ensemble learning and processed through a meta-classifier to produce the final MLTC result. The approach is evaluated using three samples of annotated texts, which contrast it with traditional and single-model methods. The results show significant improvements across the majority of the topics in the classification's F1 score and consistency (F1 and Micro-F1 scores of 78.17% and 80.16% with standard deviations of 0.025 and 0.011, respectively). This research advances MLTC using LLMs and provides an efficient and scalable solution to rapidly categorize healthcare-related text data without further training.