InViC: Intent-aware Visual Cues for Medical Visual Question Answering

📄 arXiv: 2603.16372v1 📥 PDF

作者: Zhisong Wang, Ziyang Chen, Zanting Ye, Hongze Zhu, Yefeng Zheng, Yong Xia

分类: cs.CV

发布日期: 2026-03-17

备注: 10 pages, 2 figures


💡 一句话要点

提出InViC框架,通过意图感知视觉线索提升医学VQA中图像理解能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学视觉问答 多模态学习 视觉线索 意图感知 瓶颈训练 大型语言模型 图像理解

📋 核心要点

  1. 现有Med-VQA模型过度依赖语言先验知识,忽略关键视觉信息,导致临床可靠性降低。
  2. InViC框架通过提取问题相关的视觉线索,并强制模型通过这些线索获取视觉信息,增强图像理解。
  3. 实验表明,InViC在多个Med-VQA数据集上优于零样本推理和LoRA微调,提升了模型性能。

📝 摘要(中文)

医学视觉问答(Med-VQA)旨在回答基于医学图像的临床相关问题。然而,现有的多模态大型语言模型(MLLM)常常表现出抄近路回答的现象,即利用语言先验或数据集偏差产生看似合理的答案,而对视觉证据的关注不足。这种行为损害了临床可靠性,尤其是在细微的影像学发现至关重要时。我们提出了一个轻量级的插件框架,称为意图感知视觉线索(InViC),以显式地增强医学VQA中基于图像的答案生成。InViC引入了一个线索令牌提取(CTE)模块,该模块将密集的视觉令牌提炼成一组紧凑的K个问题条件线索令牌,这些令牌作为结构化的视觉中介,注入到LLM解码器中,以促进与意图对齐的视觉证据。为了阻止绕过视觉信息,我们进一步设计了一个带有线索瓶颈注意力掩码的两阶段微调策略。在第一阶段,我们使用注意力掩码来阻止LLM直接查看原始视觉特征,从而将所有视觉证据通过线索路径传递。在第二阶段,恢复标准因果注意力,以训练LLM联合利用视觉和线索令牌。我们在三个公共Med-VQA基准(VQA-RAD、SLAKE和ImageCLEF VQA-Med 2019)上,跨多个代表性MLLM评估了InViC。InViC始终优于零样本推理和标准LoRA微调,表明具有瓶颈训练的意图感知视觉线索是提高可信Med-VQA的实用且有效的策略。

🔬 方法详解

问题定义:医学视觉问答(Med-VQA)任务需要根据医学图像回答临床相关问题。现有方法,特别是基于多模态大语言模型的方法,容易利用语言先验知识或数据集偏差来“抄近路”回答问题,而忽略图像中的关键视觉信息,导致模型在临床应用中的可靠性不足。现有方法缺乏对视觉信息的有效利用和对模型行为的约束。

核心思路:InViC的核心思路是通过显式地提取和利用与问题意图相关的视觉线索,来增强模型对图像的理解和利用。通过引入“线索令牌”作为视觉信息的中间表示,并结合特定的训练策略,强制模型关注并依赖这些线索来生成答案,从而避免模型直接依赖语言先验知识。

技术框架:InViC是一个插件式框架,可以集成到现有的多模态大语言模型中。其主要包含两个模块:1) 线索令牌提取(Cue Tokens Extraction, CTE)模块:该模块从密集的视觉特征中提取K个与问题相关的线索令牌。2) 两阶段微调策略:第一阶段使用注意力掩码,阻止LLM直接访问原始视觉特征,强制模型通过线索令牌获取视觉信息;第二阶段恢复标准注意力机制,允许模型同时利用原始视觉特征和线索令牌。

关键创新:InViC的关键创新在于:1) 提出了意图感知的视觉线索概念,通过CTE模块提取与问题相关的视觉信息。2) 设计了两阶段微调策略,通过“瓶颈”训练,强制模型关注并依赖视觉线索,从而避免模型过度依赖语言先验知识。3) 框架的轻量级和插件式设计,使其易于集成到现有的多模态大语言模型中。

关键设计:CTE模块的具体实现方式未知,论文中可能使用了某种注意力机制或池化操作来提取线索令牌。两阶段微调策略中的注意力掩码的具体实现方式也未知,但其目的是阻止LLM直接访问原始视觉特征。K值的选择(线索令牌的数量)可能是一个重要的超参数,需要根据具体任务进行调整。损失函数方面,可能使用了标准的交叉熵损失函数来训练模型生成答案。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

InViC在VQA-RAD、SLAKE和ImageCLEF VQA-Med 2019三个Med-VQA基准数据集上进行了评估,结果表明,InViC consistently优于零样本推理和标准LoRA微调。具体提升幅度未知,但结果证明了InViC框架的有效性和泛化能力,表明意图感知视觉线索和瓶颈训练是提高可信Med-VQA的有效策略。

🎯 应用场景

InViC框架可应用于各种医学视觉问答场景,辅助医生进行诊断和治疗决策。通过提升模型对医学图像的理解能力,减少误诊和漏诊的风险,提高医疗服务的质量和效率。未来可扩展到其他需要精确视觉理解的领域,如自动驾驶、工业检测等。

📄 摘要(原文)

Medical visual question answering (Med-VQA) aims to answer clinically relevant questions grounded in medical images. However, existing multimodal large language models (MLLMs) often exhibit shortcut answering, producing plausible responses by exploiting language priors or dataset biases while insufficiently attending to visual evidence. This behavior undermines clinical reliability, especially when subtle imaging findings are decisive. We propose a lightweight plug-in framework, termed Intent-aware Visual Cues (InViC), to explicitly enhance image-based answer generation in medical VQA. InViC introduces a Cue Tokens Extraction (CTE) module that distills dense visual tokens into a compact set of K question-conditioned cue tokens, which serve as structured visual intermediaries injected into the LLM decoder to promote intent-aligned visual evidence. To discourage bypassing of visual information, we further design a two-stage fine-tuning strategy with a cue-bottleneck attention mask. In Stage I, we employ an attention mask to block the LLM's direct view of raw visual features, thereby funneling all visual evidence through the cue pathway. In Stage II, standard causal attention is restored to train the LLM to jointly exploit the visual and cue tokens. We evaluate InViC on three public Med-VQA benchmarks (VQA-RAD, SLAKE, and ImageCLEF VQA-Med 2019) across multiple representative MLLMs. InViC consistently improves over zero-shot inference and standard LoRA fine-tuning, demonstrating that intent-aware visual cues with bottlenecked training is a practical and effective strategy for improving trustworthy Med-VQA.