Less Is More? Selective Visual Attention to High-Importance Regions for Multimodal Radiology Summarization
作者: Mst. Fahmida Sultana Naznin, Adnan Ibney Faruq, Mushfiqur Rahman, Niloy Kumar Mondal, Md. Mehedi Hasan Shawon, Md Rakibul Hasan
分类: cs.CV, cs.CL
发布日期: 2026-03-31
💡 一句话要点
ViTAS:通过选择性关注重要区域,提升多模态放射学报告摘要生成效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 放射学报告摘要 多模态学习 视觉注意力 医学影像分析 深度学习
📋 核心要点
- 现有放射学报告摘要模型难以有效利用视觉信息,易受噪声干扰,多模态性能提升有限。
- ViTAS通过选择性关注病理相关区域,减少视觉噪声,提升模型对关键信息的关注度。
- ViTAS在MIMIC-CXR上取得SOTA结果,BLEU-4达29.25%,ROUGE-L达69.83%,并提升了事实一致性。
📝 摘要(中文)
自动放射学报告摘要旨在将冗长的检查结果提炼成简洁的临床印象。现有的多模态模型通常难以处理视觉噪声,并且在FINDINGS到IMPRESSION的转换中,其性能提升有限,甚至不如强大的纯文本基线模型。本文挑战了两个普遍的假设:(1)更多的视觉输入总是更好;(2)当检查结果已经包含丰富的图像信息时,多模态模型的价值有限。通过在MIMIC-CXR基准上的受控消融实验,证明了选择性地关注与病理相关的视觉区域,而不是完整图像,可以显著提高性能。本文提出了一种多阶段流程ViTAS(Visual-Text Attention Summarizer),它结合了集成引导的MedSAM2肺部分割、用于多视图融合的双向交叉注意力、Shapley引导的自适应区域聚类以及分层视觉标记化,并将其输入到ViT中。ViTAS取得了SOTA结果,BLEU-4为29.25%,ROUGE-L为69.83%,在定性分析中提高了事实一致性,并获得了最高的专家评分。研究结果表明,更少但更相关的视觉输入不仅足够,而且对于多模态放射学摘要生成来说更优越。
🔬 方法详解
问题定义:放射学报告摘要旨在将冗长的放射影像检查报告转化为简洁的临床印象。现有的多模态模型在处理放射影像时,常常受到视觉噪声的干扰,无法有效提取关键病理信息,导致模型性能提升有限,甚至不如纯文本模型。因此,如何有效利用视觉信息,减少噪声干扰,是该领域面临的关键问题。
核心思路:本文的核心思路是“少即是多”,即并非所有视觉信息都对摘要生成有益,选择性地关注与病理相关的关键区域,可以有效减少噪声干扰,提升模型性能。通过关注高重要性区域,模型可以更准确地捕捉影像中的关键信息,从而生成更准确、更简洁的摘要。
技术框架:ViTAS是一个多阶段的流程,主要包含以下几个模块:1) 肺部分割:使用集成引导的MedSAM2进行肺部分割,提取肺部区域。2) 多视图融合:采用双向交叉注意力机制,融合文本和视觉信息。3) 区域聚类:利用Shapley值引导的自适应区域聚类,将视觉区域划分为不同的簇。4) 视觉标记化:使用分层视觉标记化方法,将视觉区域转换为视觉token。5) 摘要生成:将视觉token输入到ViT模型中,生成最终的放射学报告摘要。
关键创新:ViTAS的关键创新在于选择性视觉关注机制。与以往直接使用完整图像作为输入的方法不同,ViTAS通过肺部分割和区域聚类,只关注与病理相关的关键区域。这种选择性关注机制可以有效减少视觉噪声的干扰,提升模型对关键信息的关注度。此外,Shapley值引导的自适应区域聚类也是一个创新点,它可以根据不同区域的重要性,自适应地调整聚类结果。
关键设计:在肺部分割阶段,使用了集成学习的方法,结合多个MedSAM2模型的结果,提高分割的准确性。在区域聚类阶段,使用Shapley值来评估不同区域的重要性,并根据重要性自适应地调整聚类参数。在视觉标记化阶段,使用了分层的方法,将视觉区域划分为不同的层级,从而更好地捕捉区域之间的关系。
🖼️ 关键图片
📊 实验亮点
ViTAS在MIMIC-CXR数据集上取得了显著的性能提升,BLEU-4指标达到29.25%,ROUGE-L指标达到69.83%,超越了现有的SOTA模型。定性分析表明,ViTAS生成的摘要在事实一致性方面有所提高,能够更准确地反映影像中的关键病理信息。此外,专家评估结果显示,ViTAS在多个指标上均获得了最高的评分。
🎯 应用场景
该研究成果可应用于临床放射学报告的自动生成,辅助医生快速了解患者病情,提高诊断效率。此外,该方法也可推广到其他医学影像分析领域,例如病灶检测、疾病诊断等。未来,结合更先进的深度学习技术,有望实现更智能、更精准的医学影像分析。
📄 摘要(原文)
Automated radiology report summarization aims to distill verbose findings into concise clinical impressions, but existing multimodal models often struggle with visual noise and fail to meaningfully improve over strong text-only baselines in the FINDINGS $\to$ IMPRESSION transformation. We challenge two prevailing assumptions: (1) that more visual input is always better, and (2) that multimodal models add limited value when findings already contain rich image-derived detail. Through controlled ablations on MIMIC-CXR benchmark, we show that selectively focusing on pathology-relevant visual patches rather than full images yields substantially better performance. We introduce ViTAS, Visual-Text Attention Summarizer, a multi-stage pipeline that combines ensemble-guided MedSAM2 lung segmentation, bidirectional cross-attention for multi-view fusion, Shapley-guided adaptive patch clustering, and hierarchical visual tokenization feeding a ViT. ViTAS achieves SOTA results with 29.25% BLEU-4 and 69.83% ROUGE-L, improved factual alignment in qualitative analysis, and the highest expert-rated human evaluation scores. Our findings demonstrate that less but more relevant visual input is not only sufficient but superior for multimodal radiology summarization.