DGSAN: Dual-Graph Spatiotemporal Attention Network for Pulmonary Nodule Malignancy Prediction

📄 arXiv: 2512.20898v1 📥 PDF

作者: Xiao Yu, Zhaojie Fang, Guanyu Zhou, Yin Shen, Huoling Luo, Ye Li, Ahmed Elazab, Xiang Wan, Ruiquan Ge, Changmiao Wang

分类: cs.CV, cs.AI

发布日期: 2025-12-24


💡 一句话要点

提出双图时空注意力网络以解决肺结节恶性预测问题

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 肺结节 恶性预测 多模态融合 时空注意力 深度学习 医学影像 数据集构建

📋 核心要点

  1. 现有方法在多模态和多时间点信息融合上效率低,无法充分利用肺结节的特征。
  2. 提出双图时空注意力网络,通过全球-局部特征编码器和双图构建方法提升多模态特征的融合效果。
  3. 在NLST-cmst和CSTL衍生数据集上的实验表明,DGSAN在分类性能上显著优于现有方法,且计算效率高。

📝 摘要(中文)

肺癌是全球癌症相关死亡的主要原因,早期检测和诊断肺结节对提高患者生存率至关重要。尽管以往研究整合了多模态和多时间点信息,但现有的融合方法主要依赖低效的向量拼接和简单的互注意力,亟需更有效的多模态信息融合。为此,本文提出了双图时空注意力网络(DGSAN),利用时间变化和多模态数据来提高预测准确性。我们开发了全球-局部特征编码器,以更好地捕捉肺结节的局部、全局和融合特征,并引入双图构建方法将多模态特征组织为跨模态和模态内图。此外,层次交叉模态图融合模块被引入以优化特征整合。我们还编制了新的多模态数据集NLST-cmst,以支持相关研究。实验结果表明,DGSAN在肺结节分类中显著优于现有最先进方法,且计算效率卓越。

🔬 方法详解

问题定义:本文旨在解决肺结节恶性预测中的多模态信息融合效率低的问题。现有方法主要依赖简单的向量拼接和互注意力,无法充分挖掘多模态数据的潜力。

核心思路:提出双图时空注意力网络(DGSAN),通过全球-局部特征编码器和双图构建方法,增强多模态特征的捕捉与融合,提升预测准确性。

技术框架:DGSAN的整体架构包括全球-局部特征编码器、双图构建模块和层次交叉模态图融合模块。全球-局部特征编码器负责提取局部和全局特征,双图构建模块将特征组织为跨模态和模态内图,层次交叉模态图融合模块则优化特征整合。

关键创新:最重要的创新在于双图构建方法和层次交叉模态图融合模块,这与现有方法的简单拼接和互注意力形成鲜明对比,能够更有效地捕捉多模态特征之间的关系。

关键设计:在网络结构上,采用了特定的损失函数以优化多模态特征的融合效果,参数设置经过多次实验调优,以确保模型的稳定性和高效性。整体架构设计注重特征的局部与全局信息的平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在NLST-cmst和CSTL衍生数据集上的实验结果显示,DGSAN在肺结节分类任务中取得了显著的性能提升,相较于现有最先进方法,分类准确率提高了XX%,并且在计算效率上表现优越,处理速度提升了YY%。

🎯 应用场景

该研究的潜在应用领域包括医学影像分析、肺癌早期筛查和诊断支持系统。通过提高肺结节恶性预测的准确性,DGSAN有助于医生做出更为精准的临床决策,进而提高患者的生存率和生活质量。未来,该方法还可扩展至其他类型的医学影像分析任务。

📄 摘要(原文)

Lung cancer continues to be the leading cause of cancer-related deaths globally. Early detection and diagnosis of pulmonary nodules are essential for improving patient survival rates. Although previous research has integrated multimodal and multi-temporal information, outperforming single modality and single time point, the fusion methods are limited to inefficient vector concatenation and simple mutual attention, highlighting the need for more effective multimodal information fusion. To address these challenges, we introduce a Dual-Graph Spatiotemporal Attention Network, which leverages temporal variations and multimodal data to enhance the accuracy of predictions. Our methodology involves developing a Global-Local Feature Encoder to better capture the local, global, and fused characteristics of pulmonary nodules. Additionally, a Dual-Graph Construction method organizes multimodal features into inter-modal and intra-modal graphs. Furthermore, a Hierarchical Cross-Modal Graph Fusion Module is introduced to refine feature integration. We also compiled a novel multimodal dataset named the NLST-cmst dataset as a comprehensive source of support for related research. Our extensive experiments, conducted on both the NLST-cmst and curated CSTL-derived datasets, demonstrate that our DGSAN significantly outperforms state-of-the-art methods in classifying pulmonary nodules with exceptional computational efficiency.