A Comprehensive Study on Fine-Tuning Large Language Models for Medical Question Answering Using Classification Models and Comparative Analysis

📄 arXiv: 2501.17190v1 📥 PDF

作者: Aysegul Ucar, Soumik Nayak, Anunak Roy, Burak Taşcı, Gülay Taşcı

分类: cs.CL

发布日期: 2025-01-27

备注: 18 pages, 5 figures,3 tables


💡 一句话要点

提出一种基于分类模型的医学问答大语言模型微调方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学问答 大型语言模型 微调 分类模型 BERT RoBERTa 自然语言处理

📋 核心要点

  1. 现有医学问答系统在准确性和效率方面存在不足,难以提供可靠的医学信息。
  2. 该论文提出一种两阶段方法,首先对医学问题进行分类,然后提供预定义的答案,以提高准确性和效率。
  3. 实验结果表明,微调后的BERT和RoBERTa模型在医学问题分类和答案生成方面表现出色。

📝 摘要(中文)

本文概述了专门为回答医学问题而设计的大型语言模型(LLM)的开发和微调。主要目标是提高为医学查询提供可靠答案的准确性和效率。该方法分为两个阶段:首先预测接收到的医学问题的特定标签,然后提供该标签的预定义答案。论文考察了RoBERTa和BERT等多种模型,并根据它们的能力进行了评估。这些模型使用从Healthline.com抓取的6,800个样本以及额外的合成数据训练。为了评估性能,进行了使用5折交叉验证的比较研究。使用准确率、精确率、召回率和F1分数等指标来评估性能,并记录训练时间。LoRA Roberta-large模型达到了78.47%的准确率,72.91%的精确率,76.95%的召回率和73.56%的F1分数。Roberta-base模型表现出高性能,准确率为99.87%,精确率为99.81%,召回率为99.86%,F1分数为99.82%。Bert Uncased模型表现出强大的结果,准确率为95.85%,精确率为94.42%,召回率为95.58%,F1分数为94.72%。最后,Bert Large Uncased模型实现了最高的性能,准确率、精确率、召回率和F1分数均为100%。结果表明,这些模型有能力对医学问题进行分类,并在改进的健康相关AI解决方案的处方中生成准确的答案。

🔬 方法详解

问题定义:论文旨在解决医学问答领域中,大型语言模型(LLM)在提供准确、可靠答案方面的挑战。现有方法可能存在信息不准确、效率低下的问题,无法满足用户对高质量医学信息的需求。

核心思路:论文的核心思路是将医学问答任务分解为两个阶段:首先,使用分类模型预测医学问题的特定标签;然后,基于该标签提供预定义的答案。这种方法旨在利用分类模型的优势,提高答案的准确性和可靠性。

技术框架:整体框架包含数据收集与预处理、模型训练与微调、以及评估三个主要阶段。首先,从Healthline.com抓取数据并生成合成数据,构建训练数据集。然后,选择RoBERTa和BERT等预训练语言模型,并在医学问答数据集上进行微调。最后,使用5折交叉验证评估模型的性能,并使用准确率、精确率、召回率和F1分数等指标进行评估。

关键创新:该方法的主要创新在于将医学问答任务转化为一个分类问题,并利用预训练语言模型进行微调。这种方法可以有效地利用预训练模型的知识,提高答案的准确性和可靠性。此外,使用合成数据来扩充训练数据集,可以进一步提高模型的泛化能力。

关键设计:论文中使用了多种预训练语言模型,包括RoBERTa和BERT,并针对医学问答任务进行了微调。具体的技术细节包括:数据集的构建方法、模型的微调策略、以及评估指标的选择。论文还探讨了不同模型的性能差异,并分析了影响模型性能的关键因素。具体参数设置和损失函数等细节在论文中可能没有详细展开,属于未知信息。

📊 实验亮点

实验结果表明,微调后的BERT和RoBERTa模型在医学问题分类和答案生成方面表现出色。其中,Bert Large Uncased模型实现了100%的准确率、精确率、召回率和F1分数。Roberta-base模型也达到了接近100%的性能。这些结果表明,该方法在医学问答领域具有很高的应用潜力。

🎯 应用场景

该研究成果可应用于开发智能医学问答系统,为患者和医护人员提供快速、准确的医学信息。该技术可以集成到在线健康平台、医疗机构的自助服务终端等,提高医疗服务的效率和质量,并有望在远程医疗和健康咨询领域发挥重要作用。

📄 摘要(原文)

This paper presents the overview of the development and fine-tuning of large language models (LLMs) designed specifically for answering medical questions. We are mainly improving the accuracy and efficiency of providing reliable answers to medical queries. In our approach, we have two stages, prediction of a specific label for the received medical question and then providing a predefined answer for this label. Various models such as RoBERTa and BERT were examined and evaluated based on their ability. The models are trained using the datasets derived from 6,800 samples that were scraped from Healthline. com with additional synthetic data. For evaluation, we conducted a comparative study using 5-fold cross-validation. For accessing performance we used metrics like, accuracy, precision, recall, and F1 score and also recorded the training time. The performance of the models was evaluated using 5-fold cross-validation. The LoRA Roberta-large model achieved an accuracy of 78.47%, precision of 72.91%, recall of 76.95%, and an F1 score of 73.56%. The Roberta-base model demonstrated high performance with an accuracy of 99.87%, precision of 99.81%, recall of 99.86%, and an F1 score of 99.82%. The Bert Uncased model showed strong results with an accuracy of 95.85%, precision of 94.42%, recall of 95.58%, and an F1 score of 94.72%. Lastly, the Bert Large Uncased model achieved the highest performance, with an accuracy, precision, recall, and F1 score of 100%. The results obtained have helped indicate the capability of the models in classifying the medical questions and generating accurate answers in the prescription of improved health-related AI solutions.