Noise-Aware Visual Representation Learning for Medical Visual Question Answering

📄 arXiv: 2606.05535v1 📥 PDF

作者: I Putu Adi Pratama, Bahadorreza Ofoghi, Atul Sajjanhar, Shang Gao

分类: cs.CV, cs.AI

发布日期: 2026-06-04

备注: 15 pages, 2 figures. Conference submission


💡 一句话要点

提出噪声感知的视觉表征学习以提升医学视觉问答性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学视觉问答 去噪自编码器 视觉表征 鲁棒性 多层感知器 低秩适应 临床决策支持

📋 核心要点

  1. 现有的医学视觉问答方法通常忽视了噪声和小的无关变化对视觉表征的影响,导致模型在处理真实世界数据时性能下降。
  2. 本文提出了一种噪声感知的Med-VQA框架,通过引入去噪自编码器来增强视觉表征的鲁棒性,从而提高模型对噪声的抵抗力。
  3. 在SLAKE和PathVQA基准上进行的实验表明,所提方法在处理噪声输入时表现出更好的鲁棒性,同时在干净数据上的性能也保持竞争力。

📝 摘要(中文)

医学视觉问答(Med-VQA)在临床决策支持中具有重要潜力,能够帮助AI模型解读医学图像并回答相关问题。现有方法通常通过轻量级映射网络将现成的视觉编码器与大型语言模型(LLMs)连接,旨在降低计算成本。然而,这些方法往往忽视了处理噪声和小的无关变化在视觉表征中的重要性。为了解决这些挑战,本文提出了一种噪声感知的Med-VQA框架,在视觉嵌入映射到LLM输入空间之前,先引入去噪自编码器。该去噪自编码器经过预训练,能够从受损输入中重建干净的视觉嵌入,促使模型学习对噪声不敏感的稳健视觉表征。最终的嵌入通过多层感知器(MLP)投影到语言模型嵌入空间,形成视觉前缀标记,为LLM提供图像信息。实验结果表明,该方法在处理噪声输入嵌入时表现出更强的鲁棒性,同时在多个评估标准上保持竞争力。

🔬 方法详解

问题定义:本文旨在解决医学视觉问答中对噪声和小的无关变化的敏感性问题。现有方法在处理真实世界的医学图像时,往往无法有效应对这些挑战,导致性能下降。

核心思路:论文的核心思路是引入去噪自编码器,以学习更稳健的视觉表征,从而减少噪声对模型性能的影响。通过预训练去噪自编码器,模型能够从受损的输入中重建干净的视觉嵌入。

技术框架:整体架构包括去噪自编码器、视觉嵌入映射和多层感知器(MLP)。首先,去噪自编码器处理输入图像,生成干净的视觉嵌入;然后,这些嵌入通过MLP映射到语言模型的嵌入空间,形成视觉前缀标记。

关键创新:最重要的技术创新在于引入去噪自编码器作为预处理步骤,使得模型能够学习到对噪声更具鲁棒性的视觉表征。这一设计与现有方法的本质区别在于强调了噪声处理的重要性。

关键设计:在去噪自编码器的训练中,采用了重建损失函数,以确保模型能够有效地从受损输入中恢复出干净的视觉嵌入。此外,使用低秩适应(LoRA)进行参数高效的微调,避免了全量重训练的需求。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,所提方法在SLAKE和PathVQA基准上相比于传统方法,在处理噪声输入时表现出显著的鲁棒性提升,同时在干净数据上的性能保持竞争力,验证了噪声感知学习的有效性。

🎯 应用场景

该研究的潜在应用领域包括医学影像分析、临床决策支持系统以及智能医疗助手等。通过提升模型对噪声的鲁棒性,可以在实际医疗场景中更可靠地解读医学图像,辅助医生做出更准确的决策,具有重要的实际价值和未来影响。

📄 摘要(原文)

Medical visual question answering (Med-VQA) has strong potential for clinical decision support by enabling AI models to interpret medical images and answer clinically relevant queries. Recent approaches typically connect off-the-shelf vision encoders with large language models (LLMs) through lightweight mapping networks to reduce computational cost. However, these methods often overlook the importance of handling noise and small irrelevant changes in visual representations. To address these challenges, we propose a noise-aware Med-VQA framework that incorporates a denoising autoencoder before visual embeddings are mapped into the input space of an LLM. The denoising autoencoder is pretrained to reconstruct clean visual embeddings from corrupted inputs, encouraging the model to learn robust visual representations that are less sensitive to noise. The resulting embeddings are then projected into the language model embedding space using a multi-layer perceptron (MLP), forming visual prefix tokens that provide image information to the LLM. To enable efficient adaptation without full retraining, we employ parameter-efficient fine-tuning using low-rank adaptation (LoRA). The proposed method is evaluated on the SLAKE and PathVQA benchmarks. Experimental results show improved robustness to noisy input embeddings while maintaining competitive clean performance across multiple evaluation criteria. These findings suggest that learning more robust visual representations can enhance Med-VQA performance and robustness.