Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding

📄 arXiv: 2505.15123v2 📥 PDF

作者: Ta Duc Huy, Duy Anh Huynh, Yutong Xie, Yuankai Qi, Qi Chen, Phi Le Nguyen, Sen Kim Tran, Son Lam Phung, Anton van den Hengel, Zhibin Liao, Minh-Son To, Johan W. Verjans, Vu Minh Hieu Phan

分类: cs.CV, cs.AI

发布日期: 2025-05-21 (更新: 2025-08-24)

备注: Accepted at ICCV 2025 (Highlight)


💡 一句话要点

提出疾病感知提示(DAP)方法,提升弱监督医学图像视觉定位精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 医学影像 弱监督学习 视觉语言模型 可解释性 疾病感知提示 胸部X光

📋 核心要点

  1. 现有视觉语言模型(VLM)在医学图像视觉定位中,易受背景token干扰,导致模型关注非疾病区域。
  2. 论文提出疾病感知提示(DAP)方法,利用VLM的可解释性图来识别并放大疾病相关区域的特征。
  3. 实验结果表明,DAP在胸部X光数据集上显著提升了视觉定位精度,无需额外的像素级标注。

📝 摘要(中文)

视觉定位(VG)旨在识别图像中与特定文本描述相关的区域。在医学影像中,VG通过突出显示与文本描述相关的病理特征来增强可解释性,提高模型透明度和可信度,从而促进深度学习模型在临床实践中的更广泛应用。目前的模型由于注意力机制效率低下和缺乏细粒度的token表示,难以将文本描述与疾病区域相关联。本文通过实验证明了两个关键观察结果。首先,当前的VLM为背景token分配了高权重,从而转移了模型对疾病区域的注意力。其次,用于跨模态学习的全局token不能代表局部疾病token。这阻碍了文本和疾病token之间相关性的识别。为了解决这个问题,我们引入了一种简单而有效的疾病感知提示(DAP)过程,该过程使用VLM的可解释性图来识别适当的图像特征。这种简单的策略放大了与疾病相关的区域,同时抑制了背景干扰。在没有任何额外的像素级注释的情况下,DAP在三个主要的胸部X光数据集上,将视觉定位精度提高了20.74%,优于最先进的方法。

🔬 方法详解

问题定义:医学图像视觉定位旨在根据给定的文本描述,在图像中定位对应的病灶区域。现有方法,特别是基于视觉语言模型(VLM)的方法,在医学图像上表现不佳,主要原因是VLM容易受到背景区域的干扰,将注意力分散到非病灶区域,导致定位精度下降。此外,全局token无法有效代表局部病灶特征,阻碍了文本和病灶区域的关联。

核心思路:论文的核心思路是利用VLM本身的可解释性来识别图像中与疾病相关的区域,并以此为基础设计一种提示(Prompting)策略,即疾病感知提示(DAP)。DAP通过放大疾病相关区域的特征,同时抑制背景干扰,从而引导VLM更准确地定位病灶区域。这种方法无需额外的像素级标注,属于弱监督学习范畴。

技术框架:DAP方法主要包含以下几个阶段:1) 使用预训练的VLM对图像和文本进行编码,得到图像特征和文本特征;2) 利用VLM的可解释性方法(如Grad-CAM)生成图像的解释性图,该图指示了图像中哪些区域对VLM的预测结果影响最大;3) 基于解释性图,确定疾病相关的区域,并生成DAP提示;4) 将DAP提示融入到图像特征中,增强疾病区域的表示;5) 使用增强后的图像特征和文本特征进行跨模态学习,从而实现视觉定位。

关键创新:该论文的关键创新在于提出了疾病感知提示(DAP)方法。与现有方法相比,DAP无需额外的像素级标注,而是利用VLM自身的可解释性来指导模型的学习。DAP通过放大疾病相关区域的特征,抑制背景干扰,从而显著提升了视觉定位精度。这种方法简单有效,易于实现,并且具有良好的泛化能力。

关键设计:DAP的关键设计在于如何利用VLM的可解释性图来生成有效的提示。具体来说,论文使用Grad-CAM生成解释性图,然后设定一个阈值,将解释性图中高于阈值的区域视为疾病相关区域。DAP提示通过对疾病相关区域的特征进行加权来实现,加权系数可以根据解释性图的值进行调整。此外,论文还探索了不同的加权策略,例如线性加权、指数加权等。损失函数方面,论文采用常用的对比学习损失,鼓励相似的图像-文本对在特征空间中靠近,不相似的图像-文本对远离。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DAP方法在三个主要的胸部X光数据集上,将视觉定位精度提高了20.74%,显著优于当前最先进的方法。这一提升是在没有任何额外的像素级标注的情况下实现的,表明DAP方法具有很高的效率和实用性。此外,实验还验证了DAP方法对不同VLM的适用性,表明该方法具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于医学影像辅助诊断领域,例如辅助医生快速定位病灶区域,提高诊断效率和准确性。此外,该方法还可以应用于其他需要视觉定位的医学影像任务,例如病灶分割、病灶分类等。未来,该研究可以进一步扩展到其他医学影像模态,例如CT、MRI等,从而实现更广泛的应用。

📄 摘要(原文)

Visual grounding (VG) is the capability to identify the specific regions in an image associated with a particular text description. In medical imaging, VG enhances interpretability by highlighting relevant pathological features corresponding to textual descriptions, improving model transparency and trustworthiness for wider adoption of deep learning models in clinical practice. Current models struggle to associate textual descriptions with disease regions due to inefficient attention mechanisms and a lack of fine-grained token representations. In this paper, we empirically demonstrate two key observations. First, current VLMs assign high norms to background tokens, diverting the model's attention from regions of disease. Second, the global tokens used for cross-modal learning are not representative of local disease tokens. This hampers identifying correlations between the text and disease tokens. To address this, we introduce simple, yet effective Disease-Aware Prompting (DAP) process, which uses the explainability map of a VLM to identify the appropriate image features. This simple strategy amplifies disease-relevant regions while suppressing background interference. Without any additional pixel-level annotations, DAP improves visual grounding accuracy by 20.74% compared to state-of-the-art methods across three major chest X-ray datasets.