PersianMedQA: Evaluating Large Language Models on a Persian-English Bilingual Medical Question Answering Benchmark

📄 arXiv: 2506.00250v3 📥 PDF

作者: Mohammad Javad Ranjbar Kalahroodi, Amirhossein Sheikholselami, Sepehr Karimi, Sepideh Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery

分类: cs.CL, cs.IT

发布日期: 2025-05-30 (更新: 2025-08-10)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

提出PersianMedQA,用于评估大型语言模型在波斯语-英语双语医学问答中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学问答 大型语言模型 波斯语 双语 数据集 基准测试 文化背景

📋 核心要点

  1. 现有大型语言模型在医学等高风险领域的低资源语言应用中,可靠性仍有待考量。
  2. 论文提出了PersianMedQA数据集,包含大量波斯语医学问题,用于评估LLMs在波斯语和英语中的医学问答能力。
  3. 实验结果表明,通用模型表现优于特定语言微调模型,且文化背景对医学问答有重要影响。

📝 摘要(中文)

大型语言模型(LLMs)在各种自然语言处理(NLP)基准测试中取得了显著的性能,通常超过人类水平的准确性。然而,它们在高风险领域(如医学)中的可靠性,特别是在低资源语言中,仍未得到充分探索。本文介绍了PersianMedQA,这是一个大规模数据集,包含来自伊朗国家医学考试14年的20,785个专家验证的波斯语医学多项选择题,涵盖23个医学专业,旨在评估LLMs在波斯语和英语中的表现。我们对40个最先进的模型进行了基准测试,包括通用模型、波斯语微调模型和医学LLMs,采用零样本和思维链(CoT)设置。结果表明,闭源通用模型(如GPT-4.1)始终优于所有其他类别,在波斯语中达到83.09%的准确率,在英语中达到80.7%,而波斯语微调模型(如Dorna)表现明显不佳(如波斯语中34.9%),通常在指令遵循和领域推理方面都存在困难。我们还分析了翻译的影响,表明虽然英语性能通常较高,但由于文化和临床背景线索在翻译中丢失,有3-10%的问题只能用波斯语正确回答。最后,我们证明,如果没有强大的领域或语言适应能力,仅凭模型大小不足以实现稳健的性能。PersianMedQA为评估LLMs中的双语和文化背景医学推理提供了基础。PersianMedQA数据集可在https://huggingface.co/datasets/MohammadJRanjbar/PersianMedQA 获取。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在波斯语医学问答领域的性能评估问题。现有方法缺乏针对波斯语医学领域的专门数据集,难以准确评估模型在该领域的表现。此外,现有方法忽略了文化背景对医学问答的影响,可能导致评估结果不准确。

核心思路:论文的核心思路是构建一个大规模的、专家验证的波斯语医学问答数据集PersianMedQA,并利用该数据集对各种LLMs进行基准测试,从而评估它们在波斯语医学问答领域的性能。同时,论文还分析了翻译对模型性能的影响,并探讨了文化背景在医学问答中的作用。

技术框架:PersianMedQA数据集包含20,785个多项选择题,涵盖23个医学专业。论文对40个LLMs进行了基准测试,包括通用模型、波斯语微调模型和医学LLMs。测试采用零样本和思维链(CoT)设置。论文还分析了翻译对模型性能的影响,并探讨了文化背景在医学问答中的作用。

关键创新:论文的主要创新点在于构建了PersianMedQA数据集,这是第一个大规模的、专家验证的波斯语医学问答数据集。该数据集可以用于评估LLMs在波斯语医学问答领域的性能,并促进该领域的研究。此外,论文还分析了翻译和文化背景对模型性能的影响,为LLMs在医学领域的应用提供了新的视角。

关键设计:PersianMedQA数据集中的问题来自伊朗国家医学考试,确保了问题的专业性和权威性。数据集涵盖了23个医学专业,保证了数据集的多样性。论文采用了零样本和思维链(CoT)设置进行测试,可以更全面地评估模型的性能。论文还使用了多种评估指标,包括准确率、精确率、召回率和F1值。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,闭源通用模型(如GPT-4.1)在波斯语和英语中均表现最佳,准确率分别达到83.09%和80.7%。波斯语微调模型(如Dorna)表现明显不佳,表明模型大小不足以保证性能,需要更强的领域或语言适应能力。翻译会影响模型性能,3-10%的问题只能用波斯语正确回答。

🎯 应用场景

该研究成果可应用于开发更可靠的波斯语医学问答系统,辅助医生进行诊断和治疗,并为患者提供更准确的医学信息。此外,该数据集也可用于研究文化背景对医学问答的影响,为LLMs在医学领域的应用提供指导。

📄 摘要(原文)

Large Language Models (LLMs) have achieved remarkable performance on a wide range of Natural Language Processing (NLP) benchmarks, often surpassing human-level accuracy. However, their reliability in high-stakes domains such as medicine, particularly in low-resource languages, remains underexplored. In this work, we introduce PersianMedQA, a large-scale dataset of 20,785 expert-validated multiple-choice Persian medical questions from 14 years of Iranian national medical exams, spanning 23 medical specialties and designed to evaluate LLMs in both Persian and English. We benchmark 40 state-of-the-art models, including general-purpose, Persian fine-tuned, and medical LLMs, in zero-shot and chain-of-thought (CoT) settings. Our results show that closed-source general models (e.g., GPT-4.1) consistently outperform all other categories, achieving 83.09% accuracy in Persian and 80.7% in English, while Persian fine-tuned models such as Dorna underperform significantly (e.g., 34.9% in Persian), often struggling with both instruction-following and domain reasoning. We also analyze the impact of translation, showing that while English performance is generally higher, 3-10% of questions can only be answered correctly in Persian due to cultural and clinical contextual cues that are lost in translation. Finally, we demonstrate that model size alone is insufficient for robust performance without strong domain or language adaptation. PersianMedQA provides a foundation for evaluating bilingual and culturally grounded medical reasoning in LLMs. The PersianMedQA dataset is available: https://huggingface.co/datasets/MohammadJRanjbar/PersianMedQA .