Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks

作者: Yuting Guo, Abeed Sarker

分类: cs.CL, cs.AI

发布日期: 2025-03-19 (更新: 2025-05-08)

备注: 5 pages

💡 一句话要点

评估开源大语言模型在医疗文本分类任务中的性能表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 医疗文本分类 基准测试 开源模型 社交媒体数据 临床数据 性能评估

📋 核心要点

现有医疗信息抽取方法依赖人工特征工程，效率低且泛化性差，大语言模型为自动化抽取提供了可能。
本研究对多个开源LLM在医疗文本分类任务上进行了基准测试，旨在为实际应用提供模型选择的参考。
实验结果表明，不同模型在不同任务上表现差异显著，模型大小并非决定性能的唯一因素，领域适应性至关重要。

📝 摘要（中文）

本研究评估了五个开源大语言模型（LLM）在六个医疗相关分类任务中的性能，这些任务涉及社交媒体数据（乳腺癌、药物治疗方案变更、不良妊娠结局、潜在的COVID-19病例）和临床数据（污名化标签、药物变更讨论）。评估的模型包括GEMMA-3-27B-IT、LLAMA3-70B、LLAMA4-109B、DEEPSEEK-R1-DISTILL-LLAMA-70B和DEEPSEEK-V3-0324-UD-Q2_K_XL。研究报告了所有模型-任务组合的精确率、召回率和F1分数，以及95%的置信区间。结果表明，不同LLM之间的性能存在显著差异，其中DeepSeekV3总体表现最强，在四个任务中取得了最高的F1分数。值得注意的是，模型在社交媒体任务上的表现通常优于临床数据任务，这表明可能存在特定领域的挑战。GEMMA-3-27B-IT尽管参数较少，但表现出极高的召回率，而LLAMA4-109B的表现却不如其前身LLAMA3-70B，这表明更大的参数量并不能保证分类结果的改善。我们观察到不同模型之间存在明显的精确率-召回率权衡，一些模型倾向于敏感性而非特异性，反之亦然。这些发现强调了针对医疗应用进行特定任务模型选择的重要性，需要考虑特定的数据领域和精确率-召回率要求，而不仅仅是模型大小。随着医疗保健越来越多地集成AI驱动的文本分类工具，这项全面的基准测试为模型选择和实施提供了有价值的指导，同时也强调了在医疗保健环境中持续评估和领域自适应LLM的必要性。

🔬 方法详解

问题定义：论文旨在解决医疗文本分类任务中，如何选择合适的开源大语言模型（LLM）的问题。现有方法缺乏对不同LLM在医疗领域特定任务上的系统性评估，难以指导实际应用。此外，现有研究较少关注社交媒体和临床数据之间的差异，以及模型在精确率和召回率之间的权衡。

核心思路：论文的核心思路是通过对多个开源LLM在不同医疗文本分类任务上进行基准测试，系统性地评估它们的性能表现。通过分析模型在不同数据领域（社交媒体 vs. 临床数据）和不同性能指标（精确率、召回率、F1分数）上的表现，为模型选择提供指导。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择五个开源LLM：GEMMA-3-27B-IT、LLAMA3-70B、LLAMA4-109B、DEEPSEEK-R1-DISTILL-LLAMA-70B和DEEPSEEK-V3-0324-UD-Q2_K_XL；2) 选择六个医疗相关的分类任务，包括社交媒体数据（乳腺癌、药物治疗方案变更、不良妊娠结局、潜在的COVID-19病例）和临床数据（污名化标签、药物变更讨论）；3) 对每个模型-任务组合进行评估，并报告精确率、召回率和F1分数，以及95%的置信区间；4) 分析实验结果，比较不同模型在不同任务上的性能表现，并讨论模型在不同数据领域和不同性能指标上的差异。

关键创新：该研究的关键创新在于：1) 对多个开源LLM在医疗文本分类任务上进行了全面的基准测试，为模型选择提供了有价值的参考；2) 关注了社交媒体和临床数据之间的差异，以及模型在精确率和召回率之间的权衡，为实际应用提供了更细致的指导；3) 揭示了模型大小并非决定性能的唯一因素，领域适应性至关重要。

关键设计：论文的关键设计包括：1) 选择了具有代表性的开源LLM，覆盖了不同参数规模和架构；2) 选择了具有实际意义的医疗文本分类任务，覆盖了不同数据领域和应用场景；3) 使用了常用的性能指标（精确率、召回率、F1分数）进行评估，并报告了95%的置信区间，保证了评估结果的可靠性。

📊 实验亮点

DeepSeekV3在四个任务中取得了最高的F1分数，总体表现最强。GEMMA-3-27B-IT尽管参数较少，但表现出极高的召回率。LLAMA4-109B的表现却不如其前身LLAMA3-70B，表明更大的参数量并不能保证性能提升。模型在社交媒体任务上的表现通常优于临床数据任务，表明领域适应性至关重要。

🎯 应用场景

该研究成果可应用于医疗信息抽取、患者情感分析、药物不良反应监测等领域。通过选择合适的LLM，可以提高医疗文本分类的准确性和效率，辅助医生进行诊断和治疗决策，改善患者的健康状况。未来，该研究可以扩展到更多医疗领域和任务，例如医学影像报告解读、电子病历分析等。

📄 摘要（原文）

The application of large language models (LLMs) to healthcare information extraction has emerged as a promising approach. This study evaluates the classification performance of five open-source LLMs: GEMMA-3-27B-IT, LLAMA3-70B, LLAMA4-109B, DEEPSEEK-R1-DISTILL-LLAMA-70B, and DEEPSEEK-V3-0324-UD-Q2_K_XL, across six healthcare-related classification tasks involving both social media data (breast cancer, changes in medication regimen, adverse pregnancy outcomes, potential COVID-19 cases) and clinical data (stigma labeling, medication change discussion). We report precision, recall, and F1 scores with 95% confidence intervals for all model-task combinations. Our findings reveal significant performance variability between LLMs, with DeepSeekV3 emerging as the strongest overall performer, achieving the highest F1 scores in four tasks. Notably, models generally performed better on social media tasks compared to clinical data tasks, suggesting potential domain-specific challenges. GEMMA-3-27B-IT demonstrated exceptionally high recall despite its smaller parameter count, while LLAMA4-109B showed surprisingly underwhelming performance compared to its predecessor LLAMA3-70B, indicating that larger parameter counts do not guarantee improved classification results. We observed distinct precision-recall trade-offs across models, with some favoring sensitivity over specificity and vice versa. These findings highlight the importance of task-specific model selection for healthcare applications, considering the particular data domain and precision-recall requirements rather than model size alone. As healthcare increasingly integrates AI-driven text classification tools, this comprehensive benchmarking provides valuable guidance for model selection and implementation while underscoring the need for continued evaluation and domain adaptation of LLMs in healthcare contexts.

Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理