Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization

作者: Ajwad Abrar, Farzana Tabassum, Sabbir Ahmed

分类: cs.CL

发布日期: 2025-05-08

DOI: 10.1109/ICCIT64611.2024.11022034

💡 一句话要点

评估大型语言模型在孟加拉语消费者健康查询摘要任务中的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 孟加拉语 消费者健康查询 文本摘要 零样本学习

📋 核心要点

孟加拉语消费者健康查询包含冗余信息，影响医疗响应效率，现有方法缺乏有效处理。
利用大型语言模型的零样本能力，直接生成孟加拉语健康查询的简洁摘要。
实验表明，部分零样本LLM在ROUGE指标上可与微调模型Bangla T5竞争，甚至超越。

📝 摘要（中文）

本研究调查了九个先进的大型语言模型（LLMs）在孟加拉语（一种低资源语言）消费者健康查询（CHQs）摘要任务中的零样本性能。孟加拉语的CHQs通常包含多余的细节，这使得有效的医疗响应变得复杂。我们使用了包含2350个带注释的查询-摘要对的BanglaCHQ-Summ数据集，并使用ROUGE指标，针对微调后的最先进模型Bangla T5对这些LLM进行了基准测试，这些LLM包括：GPT-3.5-Turbo、GPT-4、Claude-3.5-Sonnet、Llama3-70b-Instruct、Mixtral-8x22b-Instruct、Gemini-1.5-Pro、Qwen2-72b-Instruct、Gemma-2-27b和Athene-70B。结果表明，Mixtral-8x22b-Instruct在ROUGE-1和ROUGE-L中表现最佳，而Bangla T5在ROUGE-2中表现出色。结果表明，即使没有特定于任务的训练，零样本LLM也可以与微调模型相媲美，实现高质量的摘要。这项工作强调了LLM在解决低资源语言挑战方面的潜力，为医疗保健查询摘要提供了可扩展的解决方案。

🔬 方法详解

问题定义：论文旨在解决孟加拉语消费者健康查询（CHQs）中信息冗余的问题，现有方法难以有效提取关键信息并生成简洁摘要。这使得医生或其他医疗专业人员难以快速理解患者的需求，从而影响诊断和治疗效率。现有方法，如基于传统机器学习的模型，在低资源语言如孟加拉语上的表现往往不佳，需要大量标注数据进行训练。

核心思路：论文的核心思路是利用大型语言模型（LLMs）强大的零样本学习能力，直接生成孟加拉语CHQs的摘要，而无需进行特定任务的微调。这种方法旨在克服低资源语言数据稀缺的挑战，并探索LLM在处理此类任务中的潜力。通过利用LLM预训练过程中学习到的通用语言知识，可以有效地提取CHQs中的关键信息，并生成高质量的摘要。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 构建孟加拉语消费者健康查询摘要数据集（BanglaCHQ-Summ）；2) 选择九个先进的LLM进行零样本摘要生成；3) 使用ROUGE指标评估LLM生成的摘要质量；4) 将LLM的性能与微调后的Bangla T5模型进行比较。没有明确的训练或微调阶段，所有LLM均以零样本方式运行。

关键创新：该研究的关键创新在于探索了大型语言模型在低资源语言（孟加拉语）的消费者健康查询摘要任务中的零样本性能。以往的研究主要集中在高资源语言或需要大量微调的模型上，而该研究表明，即使没有特定任务的训练数据，LLM也可以在低资源语言上取得有竞争力的结果。

关键设计：该研究的关键设计包括：1) 使用BanglaCHQ-Summ数据集进行评估，该数据集包含2350个带注释的查询-摘要对；2) 选择了九个具有代表性的LLM，包括GPT-3.5-Turbo、GPT-4、Claude-3.5-Sonnet、Llama3-70b-Instruct、Mixtral-8x22b-Instruct、Gemini-1.5-Pro、Qwen2-72b-Instruct、Gemma-2-27b和Athene-70B；3) 使用ROUGE-1、ROUGE-2和ROUGE-L指标评估摘要质量；4) 将LLM的性能与微调后的Bangla T5模型进行比较，以评估零样本学习的有效性。

📊 实验亮点

实验结果表明，Mixtral-8x22b-Instruct在ROUGE-1和ROUGE-L指标上表现最佳，表明其能够有效提取关键信息并生成流畅的摘要。虽然Bangla T5在ROUGE-2上表现更优，但Mixtral-8x22b-Instruct的零样本性能已经可以与之媲美，甚至在某些指标上超越，这突显了LLM在低资源语言处理方面的巨大潜力。

🎯 应用场景

该研究成果可应用于孟加拉语地区的在线医疗咨询平台、电子病历系统和健康信息检索系统。通过自动生成简洁的查询摘要，可以帮助医生快速了解患者的需求，提高诊断效率，并改善医疗服务质量。此外，该方法还可以推广到其他低资源语言的医疗健康领域，为全球医疗保健提供更便捷、高效的服务。

📄 摘要（原文）

Consumer Health Queries (CHQs) in Bengali (Bangla), a low-resource language, often contain extraneous details, complicating efficient medical responses. This study investigates the zero-shot performance of nine advanced large language models (LLMs): GPT-3.5-Turbo, GPT-4, Claude-3.5-Sonnet, Llama3-70b-Instruct, Mixtral-8x22b-Instruct, Gemini-1.5-Pro, Qwen2-72b-Instruct, Gemma-2-27b, and Athene-70B, in summarizing Bangla CHQs. Using the BanglaCHQ-Summ dataset comprising 2,350 annotated query-summary pairs, we benchmarked these LLMs using ROUGE metrics against Bangla T5, a fine-tuned state-of-the-art model. Mixtral-8x22b-Instruct emerged as the top performing model in ROUGE-1 and ROUGE-L, while Bangla T5 excelled in ROUGE-2. The results demonstrate that zero-shot LLMs can rival fine-tuned models, achieving high-quality summaries even without task-specific training. This work underscores the potential of LLMs in addressing challenges in low-resource languages, providing scalable solutions for healthcare query summarization.

Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理