Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization

📄 arXiv: 2505.05070v1 📥 PDF

作者: Ajwad Abrar, Farzana Tabassum, Sabbir Ahmed

分类: cs.CL

发布日期: 2025-05-08

DOI: 10.1109/ICCIT64611.2024.11022034


💡 一句话要点

评估大型语言模型在孟加拉语消费者健康查询摘要任务中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 孟加拉语 消费者健康查询 文本摘要 零样本学习

📋 核心要点

  1. 孟加拉语消费者健康查询包含冗余信息,影响医疗响应效率,现有方法缺乏有效处理。
  2. 利用大型语言模型的零样本能力,直接生成孟加拉语健康查询的简洁摘要。
  3. 实验表明,部分零样本LLM在ROUGE指标上可与微调模型Bangla T5竞争,甚至超越。

📝 摘要(中文)

本研究调查了九个先进的大型语言模型(LLMs)在孟加拉语(一种低资源语言)消费者健康查询(CHQs)摘要任务中的零样本性能。孟加拉语的CHQs通常包含多余的细节,这使得有效的医疗响应变得复杂。我们使用了包含2350个带注释的查询-摘要对的BanglaCHQ-Summ数据集,并使用ROUGE指标,针对微调后的最先进模型Bangla T5对这些LLM进行了基准测试,这些LLM包括:GPT-3.5-Turbo、GPT-4、Claude-3.5-Sonnet、Llama3-70b-Instruct、Mixtral-8x22b-Instruct、Gemini-1.5-Pro、Qwen2-72b-Instruct、Gemma-2-27b和Athene-70B。结果表明,Mixtral-8x22b-Instruct在ROUGE-1和ROUGE-L中表现最佳,而Bangla T5在ROUGE-2中表现出色。结果表明,即使没有特定于任务的训练,零样本LLM也可以与微调模型相媲美,实现高质量的摘要。这项工作强调了LLM在解决低资源语言挑战方面的潜力,为医疗保健查询摘要提供了可扩展的解决方案。

🔬 方法详解

问题定义:论文旨在解决孟加拉语消费者健康查询(CHQs)中信息冗余的问题,现有方法难以有效提取关键信息并生成简洁摘要。这使得医生或其他医疗专业人员难以快速理解患者的需求,从而影响诊断和治疗效率。现有方法,如基于传统机器学习的模型,在低资源语言如孟加拉语上的表现往往不佳,需要大量标注数据进行训练。

核心思路:论文的核心思路是利用大型语言模型(LLMs)强大的零样本学习能力,直接生成孟加拉语CHQs的摘要,而无需进行特定任务的微调。这种方法旨在克服低资源语言数据稀缺的挑战,并探索LLM在处理此类任务中的潜力。通过利用LLM预训练过程中学习到的通用语言知识,可以有效地提取CHQs中的关键信息,并生成高质量的摘要。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建孟加拉语消费者健康查询摘要数据集(BanglaCHQ-Summ);2) 选择九个先进的LLM进行零样本摘要生成;3) 使用ROUGE指标评估LLM生成的摘要质量;4) 将LLM的性能与微调后的Bangla T5模型进行比较。没有明确的训练或微调阶段,所有LLM均以零样本方式运行。

关键创新:该研究的关键创新在于探索了大型语言模型在低资源语言(孟加拉语)的消费者健康查询摘要任务中的零样本性能。以往的研究主要集中在高资源语言或需要大量微调的模型上,而该研究表明,即使没有特定任务的训练数据,LLM也可以在低资源语言上取得有竞争力的结果。

关键设计:该研究的关键设计包括:1) 使用BanglaCHQ-Summ数据集进行评估,该数据集包含2350个带注释的查询-摘要对;2) 选择了九个具有代表性的LLM,包括GPT-3.5-Turbo、GPT-4、Claude-3.5-Sonnet、Llama3-70b-Instruct、Mixtral-8x22b-Instruct、Gemini-1.5-Pro、Qwen2-72b-Instruct、Gemma-2-27b和Athene-70B;3) 使用ROUGE-1、ROUGE-2和ROUGE-L指标评估摘要质量;4) 将LLM的性能与微调后的Bangla T5模型进行比较,以评估零样本学习的有效性。

📊 实验亮点

实验结果表明,Mixtral-8x22b-Instruct在ROUGE-1和ROUGE-L指标上表现最佳,表明其能够有效提取关键信息并生成流畅的摘要。虽然Bangla T5在ROUGE-2上表现更优,但Mixtral-8x22b-Instruct的零样本性能已经可以与之媲美,甚至在某些指标上超越,这突显了LLM在低资源语言处理方面的巨大潜力。

🎯 应用场景

该研究成果可应用于孟加拉语地区的在线医疗咨询平台、电子病历系统和健康信息检索系统。通过自动生成简洁的查询摘要,可以帮助医生快速了解患者的需求,提高诊断效率,并改善医疗服务质量。此外,该方法还可以推广到其他低资源语言的医疗健康领域,为全球医疗保健提供更便捷、高效的服务。

📄 摘要(原文)

Consumer Health Queries (CHQs) in Bengali (Bangla), a low-resource language, often contain extraneous details, complicating efficient medical responses. This study investigates the zero-shot performance of nine advanced large language models (LLMs): GPT-3.5-Turbo, GPT-4, Claude-3.5-Sonnet, Llama3-70b-Instruct, Mixtral-8x22b-Instruct, Gemini-1.5-Pro, Qwen2-72b-Instruct, Gemma-2-27b, and Athene-70B, in summarizing Bangla CHQs. Using the BanglaCHQ-Summ dataset comprising 2,350 annotated query-summary pairs, we benchmarked these LLMs using ROUGE metrics against Bangla T5, a fine-tuned state-of-the-art model. Mixtral-8x22b-Instruct emerged as the top performing model in ROUGE-1 and ROUGE-L, while Bangla T5 excelled in ROUGE-2. The results demonstrate that zero-shot LLMs can rival fine-tuned models, achieving high-quality summaries even without task-specific training. This work underscores the potential of LLMs in addressing challenges in low-resource languages, providing scalable solutions for healthcare query summarization.