How Good LLMs Are at Answering Bangla Medical Visual Questions? Dataset and Benchmarking

作者: Rafid Ahmed, Intesar Tahmid, Mir Sazzat Hossain, Tasnimul Hossain Tomal, Md Fahim, Md Farhad Alam Bhuiyan

分类: cs.CL, cs.CV

发布日期: 2026-05-18

备注: 14 pages, 7 figures, 5 tables, Proceedings of The Second AAAI Bridge Program on AI for Medicine and Healthcare, PMLR 317:1-14, 2026

💡 一句话要点

提出BanglaMedVQA数据集，评估LLM在孟加拉语医学视觉问答中的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学视觉问答 孟加拉语 大型语言模型 数据集构建 基准测试

📋 核心要点

现有MedVQA基准主要集中在英语等高资源语言，缺乏对孟加拉语等低资源语言的有效评估。
论文构建了BanglaMedVQA数据集，包含临床验证的孟加拉语医学图像、问题和答案，用于评估模型性能。
实验表明，现有LLM/LVLM在BanglaMedVQA上表现显著低于英语，尤其在细粒度医学推理方面存在局限。

📝 摘要（中文）

大型语言模型（LLM）和大型视觉语言模型（LVLM）的最新进展使得通用系统在复杂的推理任务中展现出令人鼓舞的能力，包括医学领域。医学视觉问答（MedVQA）尤其受益于这些发展。然而，尽管孟加拉语是全球使用最广泛的语言之一，但目前还没有针对它的MedVQA基准。为了弥补这一差距，我们推出了BanglaMedVQA，这是一个包含临床验证的图像-问题-答案对的数据集，并对当前的基础模型在该资源上进行了全面评估。与先前报告的当前模型在英语MedVQA基准上表现不佳的研究结果一致，我们的分析表明，孟加拉语的性能明显较低，反映了低资源语言固有的挑战。即使是诸如Gemini和GPT-4.1 mini等表现最佳的模型也无法准确回答专业的诊断问题，表明在细粒度的医学推理方面存在严重局限性。虽然某些开源模型（如Gemma-3）在一般类别中偶尔会优于这些模型，但它们在临床上复杂的问题上也表现不佳，突显了对顶级评估方法的迫切需求。

🔬 方法详解

问题定义：论文旨在解决缺乏孟加拉语医学视觉问答（MedVQA）基准的问题。现有MedVQA数据集主要集中在高资源语言（如英语），无法有效评估模型在孟加拉语医学图像理解和推理方面的能力。这限制了LLM/LVLM在孟加拉语医学领域的应用和发展。

核心思路：论文的核心思路是构建一个高质量的孟加拉语MedVQA数据集（BanglaMedVQA），并利用该数据集对现有LLM/LVLM进行基准测试，从而揭示模型在孟加拉语医学领域的性能瓶颈。通过分析模型在不同类型问题上的表现，可以为未来的模型改进提供方向。

技术框架：论文主要包含数据集构建和模型评估两个阶段。数据集构建涉及收集医学图像、生成孟加拉语问题和答案，并进行临床验证。模型评估阶段则选择一系列具有代表性的LLM/LVLM，在BanglaMedVQA数据集上进行测试，并分析其性能。

关键创新：该研究的关键创新在于首次构建了大规模的孟加拉语MedVQA数据集，填补了该领域的空白。该数据集经过临床验证，保证了数据的质量和可靠性。此外，论文还对现有LLM/LVLM在BanglaMedVQA上的性能进行了全面评估，揭示了模型在低资源语言医学领域的局限性。

关键设计：数据集构建的关键设计包括：1) 收集多样化的医学图像，涵盖不同疾病和模态；2) 生成高质量的孟加拉语问题，涵盖不同难度和类型；3) 聘请临床医生对问题和答案进行验证，确保其准确性和临床相关性。模型评估的关键设计包括：1) 选择具有代表性的LLM/LVLM，包括闭源和开源模型；2) 使用标准的MedVQA评估指标，如准确率和BLEU分数；3) 对模型在不同类型问题上的表现进行详细分析。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有LLM/LVLM在BanglaMedVQA数据集上的表现远低于英语MedVQA基准。例如，即使是Gemini和GPT-4.1 mini等先进模型也无法准确回答专业的诊断问题。虽然Gemma-3等开源模型在某些一般类别中表现较好，但在临床复杂问题上仍然存在困难。这些结果突显了在低资源语言医学领域开发更有效模型的迫切需求。

🎯 应用场景

该研究成果可应用于开发孟加拉语医学辅助诊断系统，帮助医生进行更准确的诊断和治疗。此外，BanglaMedVQA数据集可以促进LLM/LVLM在低资源语言医学领域的研究和发展，推动医疗人工智能的普及和应用。未来，可以进一步扩展该数据集，并探索更有效的模型训练方法，以提高模型在孟加拉语医学领域的性能。

📄 摘要（原文）

Recent advancements in Large Language Models (LLMs) and Large Vision Language Models (LVLMs) have enabled general-purpose systems to demonstrate promising capabilities in complex reasoning tasks, including those in the medical domain. Medical Visual Question Answering (MedVQA) has particularly benefited from these developments. However, despite Bangla being one of the most widely spoken languages globally, there exists no established MedVQA benchmark for it. To address this gap, we introduce BanglaMedVQA, a dataset comprising clinically validated image-question-answer pairs, along with a comprehensive evaluation of current foundation models on this resource. Consistent with prior findings that report low performance of current models on English MedVQA benchmarks, our analysis reveals that Bangla performance is substantially lower, reflecting the challenges inherent to low-resource languages. Even top-performing models such as Gemini and GPT-4.1 mini fail to accurately answer specialized diagnostic questions, indicating severe limitations in fine-grained medical reasoning. Although certain open-source models, such as Gemma-3, occasionally outperform these models in general categories, they too struggle with clinically complex questions, underscoring the urgent need for top-notch evaluation method.

How Good LLMs Are at Answering Bangla Medical Visual Questions? Dataset and Benchmarking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理