Performance Evaluation of Lightweight Open-source Large Language Models in Pediatric Consultations: A Comparative Analysis

📄 arXiv: 2407.15862v1 📥 PDF

作者: Qiuhong Wei, Ying Cui, Mengwei Ding, Yanqin Wang, Lingling Xiang, Zhengxiong Yao, Ceran Chen, Ying Long, Zhezhen Jin, Ximing Xu

分类: cs.LG, cs.AI, cs.CL, cs.CY

发布日期: 2024-07-16

备注: 27 pages in total with 17 pages of main manuscript and 10 pages of supplementary materials; 4 figures in the main manuscript and 2 figures in supplementary material


💡 一句话要点

轻量级开源大语言模型在儿科咨询中的性能评估与比较分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 儿科咨询 开源模型 性能评估 ChatGLM3 Vicuna ChatGPT 医疗应用

📋 核心要点

  1. 现有大型语言模型在医疗领域的应用受限于数据隐私和计算资源,轻量级开源模型成为潜在方案,但在儿科场景下的性能评估不足。
  2. 该研究对比了ChatGLM3-6B、Vicuna-7B、Vicuna-13B和ChatGPT-3.5在儿科咨询问答中的表现,评估指标包括准确性、完整性、可读性、同理心和安全性。
  3. 实验结果表明,ChatGLM3-6B在轻量级模型中表现较好,但在准确性和完整性上仍与ChatGPT-3.5存在差距,提示轻量级模型仍需进一步发展。

📝 摘要(中文)

大型语言模型(LLMs)在医学领域展现出潜在应用,但数据隐私和计算负担限制了其在医疗机构的部署。开源和轻量级LLMs作为潜在解决方案出现,但其性能,特别是在儿科环境中的性能仍未被充分探索。本横断面研究从公共在线医疗论坛随机选择了250个患者咨询问题,涵盖25个儿科科室,时间跨度从2022年12月1日至2023年10月30日。两个轻量级开源LLMs,ChatGLM3-6B和Vicuna-7B,以及一个更大规模的模型Vicuna-13B和广泛使用的专有ChatGPT-3.5,在2023年11月1日至2023年11月7日期间独立回答了这些中文问题。为了评估可重复性,每个询问重复一次。研究发现,ChatGLM3-6B在准确性和完整性方面优于Vicuna-13B和Vicuna-7B(P < .001),但均不如ChatGPT-3.5。ChatGPT-3.5在准确性(65.2%)方面获得了最高评分,其次是ChatGLM3-6B(41.2%),Vicuna-13B(11.2%)和Vicuna-7B(4.4%)。同样,在完整性方面,ChatGPT-3.5领先(78.4%),其次是ChatGLM3-6B(76.0%),Vicuna-13B(34.8%)和Vicuna-7B(22.0%)。ChatGLM3-6B在可读性上与ChatGPT-3.5相匹配,均优于Vicuna模型(P < .001)。在同理心方面,ChatGPT-3.5优于轻量级LLMs(P < .001)。在安全性方面,所有模型的表现都相当好(P > .05),超过98.4%的回复被评为安全。询问的重复证实了这些发现。总之,轻量级LLMs在儿科医疗保健中显示出有希望的应用前景。然而,轻量级和大型专有LLMs之间观察到的差距突显了继续开发工作的必要性。

🔬 方法详解

问题定义:该论文旨在评估轻量级开源大语言模型在儿科在线咨询场景下的性能。现有的大型语言模型虽然效果好,但存在数据隐私风险和高计算资源需求,限制了其在医疗机构的应用。轻量级模型虽然降低了资源需求,但其在特定医疗场景下的性能尚未充分评估。

核心思路:该论文的核心思路是通过对比不同规模的开源和闭源大语言模型在真实儿科咨询问题上的表现,来评估轻量级开源模型在实际应用中的潜力和局限性。通过多维度指标(准确性、完整性、可读性、同理心、安全性)的评估,全面了解各模型的优缺点。

技术框架:该研究采用横断面研究设计,从公共在线医疗论坛收集了250个儿科咨询问题。选择了ChatGLM3-6B、Vicuna-7B、Vicuna-13B和ChatGPT-3.5四个模型进行测试。每个模型独立回答这些问题,并进行重复实验以验证结果的可靠性。然后,由人工对模型的回答进行评估,给出各项指标的评分。

关键创新:该研究的关键创新在于针对儿科这一特定医疗场景,系统地评估了轻量级开源大语言模型的性能。以往的研究可能更多关注通用领域的性能,而忽略了特定领域的专业性和需求。该研究的结果可以为医疗机构选择合适的语言模型提供参考。

关键设计:该研究的关键设计包括:1)选择真实在线咨询问题作为测试数据,保证了评估的实际意义;2)采用多维度指标进行评估,全面衡量模型的性能;3)进行重复实验,验证结果的可靠性;4)对比开源和闭源模型,了解轻量级模型的差距。

📊 实验亮点

实验结果显示,ChatGPT-3.5在准确性(65.2%)和完整性(78.4%)方面显著优于其他模型。在轻量级模型中,ChatGLM3-6B表现最佳,准确性为41.2%,完整性为76.0%,但在同理心方面仍与ChatGPT-3.5存在差距。所有模型在安全性方面表现良好,超过98.4%的回复被评为安全。

🎯 应用场景

该研究结果可应用于儿科在线咨询平台,辅助医生进行初步诊断和提供健康建议,提高医疗效率。同时,为轻量级开源大语言模型在医疗领域的应用提供参考,推动相关技术的发展和落地。未来,可进一步优化轻量级模型,使其在特定医疗场景下达到更高的性能。

📄 摘要(原文)

Large language models (LLMs) have demonstrated potential applications in medicine, yet data privacy and computational burden limit their deployment in healthcare institutions. Open-source and lightweight versions of LLMs emerge as potential solutions, but their performance, particularly in pediatric settings remains underexplored. In this cross-sectional study, 250 patient consultation questions were randomly selected from a public online medical forum, with 10 questions from each of 25 pediatric departments, spanning from December 1, 2022, to October 30, 2023. Two lightweight open-source LLMs, ChatGLM3-6B and Vicuna-7B, along with a larger-scale model, Vicuna-13B, and the widely-used proprietary ChatGPT-3.5, independently answered these questions in Chinese between November 1, 2023, and November 7, 2023. To assess reproducibility, each inquiry was replicated once. We found that ChatGLM3-6B demonstrated higher accuracy and completeness than Vicuna-13B and Vicuna-7B (P < .001), but all were outperformed by ChatGPT-3.5. ChatGPT-3.5 received the highest ratings in accuracy (65.2%) compared to ChatGLM3-6B (41.2%), Vicuna-13B (11.2%), and Vicuna-7B (4.4%). Similarly, in completeness, ChatGPT-3.5 led (78.4%), followed by ChatGLM3-6B (76.0%), Vicuna-13B (34.8%), and Vicuna-7B (22.0%) in highest ratings. ChatGLM3-6B matched ChatGPT-3.5 in readability, both outperforming Vicuna models (P < .001). In terms of empathy, ChatGPT-3.5 outperformed the lightweight LLMs (P < .001). In safety, all models performed comparably well (P > .05), with over 98.4% of responses being rated as safe. Repetition of inquiries confirmed these findings. In conclusion, Lightweight LLMs demonstrate promising application in pediatric healthcare. However, the observed gap between lightweight and large-scale proprietary LLMs underscores the need for continued development efforts.