Multimodal AI for Gastrointestinal Diagnostics: Tackling VQA in MEDVQA-GI 2025

📄 arXiv: 2507.14544v1 📥 PDF

作者: Sujata Gaihre, Amir Thapa Magar, Prasuna Pokharel, Laxmi Tiwari

分类: cs.CV, cs.AI

发布日期: 2025-07-19

备注: accepted to ImageCLEF 2025, to be published in the lab proceedings

🔗 代码/项目: GITHUB


💡 一句话要点

利用多模态AI的Florence模型解决胃肠道内窥镜图像的VQA问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉问答 医学图像 胃肠道内窥镜 数据增强

📋 核心要点

  1. 现有VQA方法在处理医学图像,特别是胃肠道内窥镜图像时,面临领域知识不足和泛化能力弱的挑战。
  2. 论文提出使用Florence这一大规模多模态模型,结合领域特定的数据增强,提升模型对医学图像的理解和问答能力。
  3. 实验结果表明,微调后的Florence模型在KASVIR数据集上表现出色,为医学VQA任务提供了一个有效的解决方案。

📝 摘要(中文)

本文介绍了一种解决ImageCLEFmed MEDVQA 2025挑战赛Subtask 1的方法,该任务旨在实现胃肠道内窥镜图像的视觉问答(VQA)。我们采用Florence模型——一种大规模多模态基础模型——作为VQA流程的骨干网络,将强大的视觉编码器与文本编码器相结合,以解释内窥镜图像并生成临床相关的答案。为了提高泛化能力,我们应用了领域特定的数据增强方法,这些方法在保留医学特征的同时增加了训练数据的多样性。在KASVIR数据集上的实验表明,微调Florence模型可以在官方挑战赛指标上产生准确的回答。我们的结果突出了大型多模态模型在医学VQA中的潜力,并为未来在可解释性、鲁棒性和临床整合方面的工作提供了强大的基线。

🔬 方法详解

问题定义:论文旨在解决胃肠道内窥镜图像的视觉问答(VQA)问题。现有方法在处理此类医学图像时,往往缺乏足够的领域知识,导致模型难以准确理解图像内容并给出临床相关的答案。此外,由于医学图像数据量有限,模型的泛化能力也受到限制。

核心思路:论文的核心思路是利用大规模多模态基础模型Florence,该模型在视觉和文本理解方面具有强大的能力。通过在医学图像数据上对Florence模型进行微调,使其能够更好地理解内窥镜图像的特征。同时,采用领域特定的数据增强方法,增加训练数据的多样性,从而提高模型的泛化能力。

技术框架:整体框架包括以下几个主要步骤:1) 使用Florence模型的视觉编码器提取内窥镜图像的视觉特征;2) 使用Florence模型的文本编码器编码问题文本;3) 将视觉特征和文本特征进行融合,得到多模态表示;4) 使用一个预测层,根据多模态表示生成答案。

关键创新:论文的关键创新在于将大规模多模态基础模型Florence应用于医学VQA任务,并结合领域特定的数据增强方法。与传统的VQA方法相比,Florence模型具有更强的视觉和文本理解能力,能够更好地捕捉内窥镜图像中的关键信息。领域特定的数据增强方法能够有效增加训练数据的多样性,提高模型的泛化能力。

关键设计:论文中,领域特定的数据增强方法是关键设计之一。具体的数据增强策略未知,但强调了需要保留医学图像的关键特征,同时增加图像的多样性。损失函数和网络结构等其他技术细节在论文中没有详细描述,可能使用了Florence模型默认的设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在KASVIR数据集上对微调后的Florence模型进行了评估,结果表明该模型在官方挑战赛指标上取得了准确的回答。具体的性能数据和对比基线未知,但论文强调该方法为医学VQA任务提供了一个强大的基线,并突出了大型多模态模型在医学图像理解方面的潜力。

🎯 应用场景

该研究成果可应用于辅助医生进行胃肠道疾病的诊断。通过VQA系统,医生可以向系统提问关于内窥镜图像的问题,系统能够给出准确的回答,从而帮助医生更快速、准确地做出诊断决策。未来,该技术有望集成到临床工作流程中,提高医疗效率和诊断准确性。

📄 摘要(原文)

This paper describes our approach to Subtask 1 of the ImageCLEFmed MEDVQA 2025 Challenge, which targets visual question answering (VQA) for gastrointestinal endoscopy. We adopt the Florence model-a large-scale multimodal foundation model-as the backbone of our VQA pipeline, pairing a powerful vision encoder with a text encoder to interpret endoscopic images and produce clinically relevant answers. To improve generalization, we apply domain-specific augmentations that preserve medical features while increasing training diversity. Experiments on the KASVIR dataset show that fine-tuning Florence yields accurate responses on the official challenge metrics. Our results highlight the potential of large multimodal models in medical VQA and provide a strong baseline for future work on explainability, robustness, and clinical integration. The code is publicly available at: https://github.com/TiwariLaxuu/VQA-Florence.git