Large Language Models for Biomedical Article Classification

📄 arXiv: 2603.11780v1 📥 PDF

作者: Jakub Proboszcz, Paweł Cichosz

分类: cs.CL

发布日期: 2026-03-12

备注: 63 pages, 25 tables, 4 figures


💡 一句话要点

探索大型语言模型在生物医学文章分类中的应用,并提供实用配置建议。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 生物医学文章分类 零样本学习 少样本学习 提示工程 文本分类 自然语言处理

📋 核心要点

  1. 现有生物医学文章分类方法在处理复杂语义和上下文信息方面存在不足,限制了分类精度。
  2. 利用大型语言模型的强大语义理解能力,通过设计不同的提示和输出处理方法,提升分类性能。
  3. 实验结果表明,优化后的LLM配置在多个数据集上取得了接近传统机器学习方法和微调Transformer模型的性能。

📝 摘要(中文)

本研究系统且深入地探讨了大型语言模型作为生物医学文章分类器的效用。研究使用了多个小型和中型开源模型,以及选定的闭源模型,并且在评估配置的范围方面比大多数先前的工作更全面:不同类型的提示、用于生成类和类概率预测的输出处理方法,以及少量样本示例计数和选择方法。最佳配置的性能与传统分类算法的性能进行了比较。在15个具有挑战性的数据集上,零样本提示的平均PR AUC超过0.4,少量样本提示的平均PR AUC接近0.5,接近朴素贝叶斯分类器(0.5)、随机森林算法(默认设置下为0.5,超参数调整后为0.55)和微调的Transformer模型(0.5)。这些结果证实了大型语言模型作为非平凡领域文本分类器的效用,并为最有希望的设置提供了实践建议,特别是使用输出token概率进行类概率预测。

🔬 方法详解

问题定义:论文旨在解决生物医学文章的自动分类问题。现有方法,如传统的机器学习算法和微调的Transformer模型,虽然取得了一定的效果,但在泛化能力、对少量样本的适应性以及对复杂语义的理解方面仍存在局限性。此外,微调Transformer模型需要大量的标注数据和计算资源。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的零样本和少样本学习能力,通过精心设计的提示(prompt)引导LLM理解文章内容并进行分类。通过探索不同的提示策略和输出处理方法,优化LLM在生物医学文章分类任务中的表现。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据集准备:选择多个具有挑战性的生物医学文章分类数据集。2) 模型选择:选取多个小型和中型开源LLM,以及部分闭源LLM。3) 提示工程:设计不同类型的提示,包括零样本提示和少样本提示。4) 输出处理:研究不同的输出处理方法,用于生成类和类概率预测。5) 性能评估:使用PR AUC等指标评估不同配置的性能,并与传统分类算法和微调的Transformer模型进行比较。

关键创新:该研究的关键创新在于系统性地探索了LLM在生物医学文章分类中的应用,并深入分析了不同提示策略、输出处理方法以及少样本示例选择方法对分类性能的影响。此外,该研究还提出了使用输出token概率进行类概率预测的方法,并验证了其有效性。

关键设计:在提示工程方面,研究尝试了不同的提示模板,包括描述性提示、指令性提示等。在输出处理方面,研究探索了直接输出类别标签、输出类别概率等方法。对于少样本学习,研究尝试了不同的示例选择策略,例如随机选择、基于相似度选择等。此外,研究还对LLM的超参数进行了调整,例如温度参数等。

📊 实验亮点

实验结果表明,经过优化的LLM配置在15个生物医学数据集上取得了显著的性能。零样本提示的平均PR AUC超过0.4,少量样本提示的平均PR AUC接近0.5,与朴素贝叶斯分类器(0.5)、随机森林算法(0.5或0.55,取决于超参数调优)和微调的Transformer模型(0.5)的性能相当。研究还发现,使用输出token概率进行类概率预测是一种有效的策略。

🎯 应用场景

该研究成果可应用于生物医学文献的自动分类、信息检索和知识发现。例如,可以帮助研究人员快速筛选相关文献,提高科研效率。此外,该方法还可以应用于临床决策支持系统,辅助医生进行疾病诊断和治疗方案选择。未来,结合领域知识和持续学习,有望构建更智能的生物医学知识服务平台。

📄 摘要(原文)

This work presents a systematic and in-depth investigation of the utility of large language models as text classifiers for biomedical article classification. The study uses several small and mid-size open source models, as well as selected closed source ones, and is more comprehensive than most prior work with respect to the scope of evaluated configurations: different types of prompts, output processing methods for generating both class and class probability predictions, as well as few-shot example counts and selection methods. The performance of the most successful configurations is compared to that of conventional classification algorithms. The obtained average PR AUC over 15 challenging datasets above 0.4 for zero-shot prompting and nearly 0.5 for few-shot prompting comes close to that of the naïve Bayes classifier (0.5), the random forest algorithm (0.5 with default settings or 0.55 with hyperparameter tuning) and fine-tuned transformer models (0.5). These results confirm the utility of large language models as text classifiers for non-trivial domains and provide practical recommendations of the most promising setups, including in particular using output token probabilities for class probability prediction.