KorMedMCQA-V: A Multimodal Benchmark for Evaluating Vision-Language Models on the Korean Medical Licensing Examination

📄 arXiv: 2602.13650v1 📥 PDF

作者: Byungjin Choi, Seongsu Bae, Sunjun Kweon, Edward Choi

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-02-14

备注: 17 pages, 2 figures, 6 tables. (Includes appendix.)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

提出KorMedMCQA-V:一个用于评估视觉-语言模型在韩国医学执照考试上的多模态基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉-语言模型 医学图像理解 问答系统 韩国医学执照考试

📋 核心要点

  1. 现有视觉-语言模型在处理复杂医学图像,特别是需要跨图像推理的多模态医学问答方面存在不足。
  2. KorMedMCQA-V数据集旨在提供一个更具挑战性的基准,包含多模态医学图像和韩国医学执照考试风格的问题,促进模型发展。
  3. 实验结果表明,现有模型在多图像推理和特定医学成像模式上表现不佳,为未来研究提供了明确的方向。

📝 摘要(中文)

本文介绍了KorMedMCQA-V,这是一个韩国医学执照考试风格的多模态多项选择题问答基准,用于评估视觉-语言模型(VLMs)。该数据集包含1534个问题和2043张相关图像,这些图像来自韩国医学执照考试(2012-2023年),其中约30%的问题包含多张图像,需要跨图像证据整合。图像涵盖了X射线、计算机断层扫描(CT)、心电图(ECG)、超声、内窥镜和其他医学视觉资料等临床模式。我们对超过50个VLM进行了基准测试,这些VLM涵盖了专有和开源类别,包括通用、医学专用和韩国专用系列,采用统一的零样本评估协议。最佳专有模型(Gemini-3.0-Pro)实现了96.9%的准确率,最佳开源模型(Qwen3-VL-32B-Thinking)实现了83.7%的准确率,而最佳韩国专用模型(VARCO-VISION-2.0-14B)仅实现了43.2%的准确率。我们进一步发现,面向推理的模型变体比指令调整的对应模型高出高达+20个百分点,医学领域专业化对强大的通用基线产生了不一致的增益,所有模型在多图像问题上都表现下降,并且性能在不同的成像模式之间存在显着差异。通过补充纯文本的KorMedMCQA基准,KorMedMCQA-V形成了一个统一的评估套件,用于评估纯文本和多模态条件下的韩国医学推理。该数据集可通过Hugging Face Datasets获得。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型在韩国医学执照考试场景下的多模态医学问答能力评估问题。现有方法在处理复杂医学图像,特别是需要跨图像推理的问题时,准确率较低,缺乏针对韩国医学知识的专业评估基准。

核心思路:核心思路是构建一个高质量、大规模的韩国医学执照考试风格的多模态数据集,包含多种医学成像模态和复杂推理问题,以此来全面评估现有视觉-语言模型在医学领域的表现。通过零样本评估,揭示模型在不同医学任务上的优势和不足。

技术框架:该研究主要包含数据集构建和模型评估两个阶段。数据集构建阶段,收集了2012-2023年韩国医学执照考试的题目和相关医学图像,并进行了清洗和整理。模型评估阶段,选取了超过50个视觉-语言模型,包括通用模型、医学专用模型和韩国专用模型,在KorMedMCQA-V数据集上进行零样本评估,并分析了不同模型在不同类型问题上的表现。

关键创新:该研究的关键创新在于构建了一个专门针对韩国医学领域的多模态问答数据集KorMedMCQA-V,该数据集包含了多种医学成像模态和需要跨图像推理的复杂问题,能够更全面地评估视觉-语言模型在医学领域的推理能力。

关键设计:数据集包含1534个问题和2043张图像,其中约30%的问题需要跨图像推理。图像涵盖了X射线、CT、ECG、超声、内窥镜等多种医学成像模态。评估采用零样本设置,避免了在目标数据集上进行微调,更真实地反映了模型的泛化能力。研究还分析了不同模型在不同成像模态和问题类型上的表现,为模型改进提供了指导。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,最佳专有模型Gemini-3.0-Pro在KorMedMCQA-V上取得了96.9%的准确率,最佳开源模型Qwen3-VL-32B-Thinking取得了83.7%的准确率。研究还发现,面向推理的模型变体比指令调整的对应模型高出高达+20个百分点,所有模型在多图像问题上都表现下降,且性能在不同的成像模式之间存在显着差异。

🎯 应用场景

该研究成果可应用于医学教育、辅助诊断和临床决策支持等领域。通过评估和改进视觉-语言模型在医学图像理解和推理方面的能力,可以帮助医生更准确地诊断疾病,提高医疗效率和质量。未来,该数据集可以作为训练数据,用于开发更强大的医学人工智能系统。

📄 摘要(原文)

We introduce KorMedMCQA-V, a Korean medical licensing-exam-style multimodal multiple-choice question answering benchmark for evaluating vision-language models (VLMs). The dataset consists of 1,534 questions with 2,043 associated images from Korean Medical Licensing Examinations (2012-2023), with about 30% containing multiple images requiring cross-image evidence integration. Images cover clinical modalities including X-ray, computed tomography (CT), electrocardiography (ECG), ultrasound, endoscopy, and other medical visuals. We benchmark over 50 VLMs across proprietary and open-source categories-spanning general-purpose, medical-specialized, and Korean-specialized families-under a unified zero-shot evaluation protocol. The best proprietary model (Gemini-3.0-Pro) achieves 96.9% accuracy, the best open-source model (Qwen3-VL-32B-Thinking) 83.7%, and the best Korean-specialized model (VARCO-VISION-2.0-14B) only 43.2%. We further find that reasoning-oriented model variants gain up to +20 percentage points over instruction-tuned counterparts, medical domain specialization yields inconsistent gains over strong general-purpose baselines, all models degrade on multi-image questions, and performance varies notably across imaging modalities. By complementing the text-only KorMedMCQA benchmark, KorMedMCQA-V forms a unified evaluation suite for Korean medical reasoning across text-only and multimodal conditions. The dataset is available via Hugging Face Datasets: https://huggingface.co/datasets/seongsubae/KorMedMCQA-V.