EVLF-FM: Explainable Vision Language Foundation Model for Medicine

作者: Yang Bai, Haoran Cheng, Yang Zhou, Jun Zhou, Arun Thirunavukarasu, Yuhe Ke, Jie Yao, Kanae Fukutsu, Chrystie Wan Ning Quek, Ashley Hong, Laura Gutierrez, Zhen Ling Teo, Darren Shu Jeng Ting, Brian T. Soetikno, Christopher S. Nielsen, Tobias Elze, Zengxiang Li, Linh Le Dinh, Hiok Hong Chan, Victor Koh, Marcus Tan, Kelvin Z. Li, Leonard Yip, Ching Yu Cheng, Yih Chung Tham, Gavin Siew Wei Tan, Leopold Schmetterer, Marcus Ang, Rahat Hussain, Jod Mehta, Tin Aung, Lionel Tim-Ee Cheng, Tran Nguyen Tuan Anh, Chee Leong Cheng, Tien Yin Wong, Nan Liu, Iain Beehuat Tan, Soon Thye Lim, Eyal Klang, Tony Kiat Hon Lim, Rick Siow Mong Goh, Yong Liu, Daniel Shu Wei Ting

分类: cs.CV

发布日期: 2025-09-29

💡 一句话要点

提出EVLF-FM，一种具备可解释性的医学视觉语言基础模型，用于多疾病诊断和视觉问答。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学影像 视觉语言模型 可解释性AI 多模态学习 疾病诊断 视觉定位 强化学习

📋 核心要点

现有医学AI系统缺乏透明的推理过程，并且通常是模态特定的，限制了其临床应用。
EVLF-FM通过多模态视觉语言模型，结合监督和视觉强化微调，实现诊断能力和可解释性的统一。
实验结果表明，EVLF-FM在多项医学诊断和视觉定位任务中，均优于现有通用和专用模型。

📝 摘要（中文）

本文提出了一种可解释的医学视觉语言基础模型（EVLF-FM），旨在统一广泛的诊断能力和细粒度的可解释性，以促进临床应用。EVLF-FM的开发和测试使用了来自23个全球数据集的超过130万个样本，涵盖皮肤科、肝病科、眼科、病理科、肺科和放射科等六个临床专业的11种成像方式。外部验证采用了来自10个额外数据集的8884个独立测试样本，涵盖五种成像方式。EVLF-FM旨在辅助多疾病诊断和视觉问答，并具备像素级的视觉定位和推理能力。在疾病诊断的内部验证中，EVLF-FM实现了最高的平均准确率（0.858）和F1分数（0.797），优于领先的通用和专用模型。在医学视觉定位方面，EVLF-FM在九种模态上取得了出色的性能，平均mIOU为0.743，Acc@0.5为0.837。外部验证进一步证实了其强大的零样本和小样本性能，并以较小的模型尺寸获得了具有竞争力的F1分数。通过结合监督和视觉强化微调的混合训练策略，EVLF-FM不仅实现了最先进的准确率，还展示了逐步推理能力，使输出与视觉证据对齐。EVLF-FM是一种早期的具有可解释性和推理能力的多疾病VLM模型，可以促进基础模型在实际临床部署中的应用和信任。

🔬 方法详解

问题定义：现有医学AI模型在临床应用中面临两个主要问题：一是缺乏透明的推理过程，导致医生难以信任模型给出的诊断结果；二是模型通常是针对特定模态设计的，难以处理多模态医学数据，限制了其通用性。

核心思路：EVLF-FM的核心思路是构建一个多模态视觉语言基础模型，该模型不仅能够进行准确的疾病诊断，还能够提供可解释的推理过程，从而增强医生对模型的信任。通过结合监督学习和视觉强化学习，模型能够学习到视觉证据和诊断结果之间的关联，并逐步展示推理过程。

技术框架：EVLF-FM的整体架构包含视觉编码器、文本编码器和多模态融合模块。视觉编码器负责提取医学图像的特征，文本编码器负责处理用户提出的问题或诊断需求。多模态融合模块将视觉特征和文本特征进行融合，生成最终的诊断结果和解释。模型采用混合训练策略，首先使用监督学习进行预训练，然后使用视觉强化学习进行微调，以提高模型的可解释性。

关键创新：EVLF-FM最重要的技术创新点在于其可解释性设计。通过视觉强化学习，模型能够学习到逐步推理的过程，并生成与视觉证据对齐的解释。这种可解释性设计使得医生能够理解模型的推理过程，从而增强对模型的信任。此外，模型的多模态融合能力也使其能够处理来自不同模态的医学数据，提高了其通用性。

关键设计：在训练过程中，模型使用了多种损失函数，包括诊断损失、视觉定位损失和解释损失。诊断损失用于保证诊断的准确性，视觉定位损失用于提高视觉定位的精度，解释损失用于鼓励模型生成可解释的推理过程。模型还采用了注意力机制，以更好地融合视觉特征和文本特征。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

EVLF-FM在内部验证中，疾病诊断的平均准确率达到0.858，F1分数达到0.797，优于其他通用和专用模型。在医学视觉定位方面，平均mIOU为0.743，Acc@0.5为0.837。外部验证也显示出强大的零样本和小样本学习能力，在模型尺寸较小的情况下，F1分数仍具有竞争力。这些结果表明EVLF-FM在多项医学任务中均表现出色。

🎯 应用场景

EVLF-FM具有广泛的应用前景，可用于辅助医生进行疾病诊断、制定治疗方案和进行医学研究。该模型可以处理多种医学影像模态，并提供可解释的推理过程，有助于提高诊断的准确性和效率，并增强医生对AI模型的信任。未来，EVLF-FM有望成为临床医生重要的辅助工具，推动医学AI的实际应用。

📄 摘要（原文）

Despite the promise of foundation models in medical AI, current systems remain limited - they are modality-specific and lack transparent reasoning processes, hindering clinical adoption. To address this gap, we present EVLF-FM, a multimodal vision-language foundation model (VLM) designed to unify broad diagnostic capability with fine-grain explainability. The development and testing of EVLF-FM encompassed over 1.3 million total samples from 23 global datasets across eleven imaging modalities related to six clinical specialties: dermatology, hepatology, ophthalmology, pathology, pulmonology, and radiology. External validation employed 8,884 independent test samples from 10 additional datasets across five imaging modalities. Technically, EVLF-FM is developed to assist with multiple disease diagnosis and visual question answering with pixel-level visual grounding and reasoning capabilities. In internal validation for disease diagnostics, EVLF-FM achieved the highest average accuracy (0.858) and F1-score (0.797), outperforming leading generalist and specialist models. In medical visual grounding, EVLF-FM also achieved stellar performance across nine modalities with average mIOU of 0.743 and Acc@0.5 of 0.837. External validations further confirmed strong zero-shot and few-shot performance, with competitive F1-scores despite a smaller model size. Through a hybrid training strategy combining supervised and visual reinforcement fine-tuning, EVLF-FM not only achieves state-of-the-art accuracy but also exhibits step-by-step reasoning, aligning outputs with visual evidence. EVLF-FM is an early multi-disease VLM model with explainability and reasoning capabilities that could advance adoption of and trust in foundation models for real-world clinical deployment.

EVLF-FM: Explainable Vision Language Foundation Model for Medicine

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理