Computed Tomography Visual Question Answering with Cross-modal Feature Graphing

📄 arXiv: 2507.04333v1 📥 PDF

作者: Yuanhe Tian, Chen Su, Junwen Duan, Yan Song

分类: cs.CV, cs.CL

发布日期: 2025-07-06

备注: 9 pages, 3 figures


💡 一句话要点

提出基于跨模态特征图的CT图像视觉问答框架,提升诊断准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 医学影像 计算机断层扫描 跨模态学习 图卷积网络

📋 核心要点

  1. 现有VQA方法忽略了CT图像切片间的空间连续性和相关性,导致诊断结果的碎片化和不精确。
  2. 构建跨模态图整合视觉和文本特征,利用图卷积网络动态融合信息,为LLM提供软提示。
  3. 在M3D-VQA基准测试中,该方法在多个评估指标上超越现有基线,展现出更强的推理能力。

📝 摘要(中文)

医学影像中的视觉问答(VQA)旨在通过自动解释复杂的影像数据以响应自然语言查询,从而支持临床诊断。现有研究通常依赖于独立的视觉和文本编码器,分别从医学图像和临床问题中提取特征,然后将它们组合以生成答案。特别是在计算机断层扫描(CT)中,这种方法类似于传统的医学图像分析实践。然而,这些方法较少关注体积CT数据中的空间连续性和切片间相关性,导致碎片化和不精确的响应。本文提出了一种新颖的基于大型语言模型(LLM)的框架,该框架通过显著特征的图表示得到增强。与传统的模态编码策略不同,我们的方法构建了一个跨模态图,整合了视觉和文本特征,将单个CT切片和问题标记视为图中的节点。我们进一步利用注意力图卷积网络来动态融合该结构中的信息。由此产生的聚合图特征作为软提示,引导大型语言模型生成准确的答案。在M3D-VQA基准上的大量实验表明,我们的方法在多个评估指标上始终优于基线,提供了更强大的推理能力。

🔬 方法详解

问题定义:论文旨在解决CT图像视觉问答任务中,现有方法忽略CT图像切片间的空间连续性和相关性,导致答案不准确的问题。现有方法通常独立处理每个切片,缺乏对整体CT图像结构的理解。

核心思路:论文的核心思路是构建一个跨模态特征图,将CT切片和问题token都视为图中的节点,利用图卷积网络学习节点间的关系,从而捕捉CT图像的空间连续性和切片间相关性。这种方法能够更好地理解CT图像的整体结构,从而提高VQA的准确性。

技术框架:该框架主要包含以下几个模块:1) 特征提取模块:分别提取CT切片的视觉特征和问题的文本特征。2) 跨模态图构建模块:将CT切片和问题token作为节点,构建跨模态图。3) 图卷积网络模块:利用注意力图卷积网络学习节点间的关系,融合视觉和文本特征。4) 大型语言模型(LLM):将图卷积网络输出的特征作为软提示,引导LLM生成答案。

关键创新:该论文的关键创新在于提出了跨模态特征图的概念,并将CT切片和问题token都视为图中的节点。通过图卷积网络学习节点间的关系,能够有效地捕捉CT图像的空间连续性和切片间相关性。此外,将图卷积网络输出的特征作为软提示,引导LLM生成答案,能够充分利用LLM的强大生成能力。

关键设计:在图构建方面,论文采用注意力机制来动态确定节点之间的连接权重。在图卷积网络方面,论文采用了多层图卷积网络,以捕捉不同层次的节点关系。在损失函数方面,论文采用了交叉熵损失函数来训练模型。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在M3D-VQA基准测试中取得了显著的性能提升,超越了现有的基线方法。具体提升幅度未知,但实验结果表明该方法具有更强的推理能力,能够更准确地回答关于CT图像的问题。

🎯 应用场景

该研究成果可应用于辅助医学诊断,医生可以通过自然语言提问,系统自动分析CT图像并给出诊断建议,提高诊断效率和准确性。此外,该技术还可应用于医学教育和研究,帮助学生和研究人员更好地理解和分析医学影像数据。

📄 摘要(原文)

Visual question answering (VQA) in medical imaging aims to support clinical diagnosis by automatically interpreting complex imaging data in response to natural language queries. Existing studies typically rely on distinct visual and textual encoders to independently extract features from medical images and clinical questions, which are subsequently combined to generate answers. Specifically, in computed tomography (CT), such approaches are similar to the conventional practices in medical image analysis. However, these approaches pay less attention to the spatial continuity and inter-slice correlations in the volumetric CT data, leading to fragmented and imprecise responses. In this paper, we propose a novel large language model (LLM)-based framework enhanced by a graph representation of salient features. Different from conventional multimodal encoding strategies, our approach constructs a cross-modal graph integrating both visual and textual features, treating individual CT slices and question tokens as nodes within the graph. We further leverage an attentive graph convolutional network to dynamically fuse information within this structure. The resulting aggregated graph features then serve as a soft prompt to guide a large language model in generating accurate answers. Extensive experiments on the M3D-VQA benchmark demonstrate that our approach consistently outperforms baselines across multiple evaluation metrics, offering more robust reasoning capabilities.