Structured Spectral Graph Representation Learning for Multi-label Abnormality Analysis from 3D CT Scans

📄 arXiv: 2510.10779v2 📥 PDF

作者: Theo Di Piazza, Carole Lazarus, Olivier Nempont, Loic Boussel

分类: cs.CV

发布日期: 2025-10-12 (更新: 2025-10-23)

备注: 24 pages, 15 figures


💡 一句话要点

提出基于结构化谱图表示学习的3D CT多标签异常分析方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 3D CT扫描 多标签分类 异常检测 谱图卷积 图神经网络 医学影像分析 长程依赖 跨数据集泛化

📋 核心要点

  1. 3D CT多标签异常分析面临挑战,现有3D CNN难以捕捉长程依赖,Vision Transformer依赖大规模预训练。
  2. 提出基于结构化谱图的2.5D方法,将3D CT表示为图,利用谱图卷积处理切片间依赖。
  3. 实验表明,该方法具有良好的跨数据集泛化能力,并在放射报告生成和腹部CT数据上表现出潜力。

📝 摘要(中文)

随着CT检查数量的增长,对自动化工具的需求日益增加,例如器官分割、异常检测和报告生成,以支持放射科医生管理其临床工作量。3D胸部CT扫描的多标签分类仍然是一个关键但具有挑战性的问题,这是由于体积数据中固有的复杂空间关系和异常的广泛变异性。现有的基于3D卷积神经网络的方法难以捕捉长程依赖关系,而Vision Transformers通常需要在大规模、特定领域的的数据集上进行广泛的预训练才能表现出竞争力。在这项学术研究工作中,我们提出了一种2.5D替代方案,通过引入一种新的基于图的框架,该框架将3D CT体数据表示为结构化图,其中轴向切片三元组作为节点,通过谱图卷积进行处理,使模型能够推断切片间的依赖关系,同时保持与临床部署兼容的复杂度。我们的方法在来自独立机构的3个数据集上进行训练和评估,实现了强大的跨数据集泛化,并显示出与最先进的视觉编码器相比具有竞争力的性能。我们进一步进行了全面的消融研究,以评估各种聚合策略、边缘加权方案和图连接模式的影响。此外,我们通过在自动放射报告生成和腹部CT数据上的迁移实验,证明了我们方法的更广泛适用性。

🔬 方法详解

问题定义:论文旨在解决3D CT扫描图像中多标签异常分析的问题。现有方法,如3D CNN,难以捕捉CT图像中的长程依赖关系,而Vision Transformer需要大量预训练数据,限制了其在医学图像领域的应用。因此,需要一种能够有效建模空间关系且计算复杂度适中的方法。

核心思路:论文的核心思路是将3D CT体数据表示为结构化的图,利用图神经网络来学习切片之间的依赖关系。通过将轴向切片三元组作为图的节点,并使用谱图卷积来处理这些节点,模型能够有效地捕捉长程依赖关系,同时保持较低的计算复杂度。这种2.5D的方法在计算效率和性能之间取得了较好的平衡。

技术框架:该方法主要包含以下几个阶段:1) 数据预处理:对3D CT扫描图像进行预处理,例如归一化。2) 图构建:将CT扫描的轴向切片三元组作为图的节点,并根据切片之间的空间关系构建图的边。3) 谱图卷积:使用谱图卷积神经网络对图进行处理,学习节点的表示。4) 多标签分类:使用学习到的节点表示进行多标签分类,预测CT扫描图像中存在的异常。

关键创新:该方法的关键创新在于使用结构化的谱图来表示3D CT体数据,并利用谱图卷积来学习切片之间的依赖关系。与传统的3D CNN相比,该方法能够更好地捕捉长程依赖关系,同时具有更低的计算复杂度。与Vision Transformer相比,该方法不需要大量的预训练数据,更适合医学图像领域的应用。

关键设计:在图构建方面,论文探讨了不同的边缘加权方案和图连接模式,例如使用k近邻图或全连接图。在谱图卷积方面,论文使用了ChebNets进行谱图卷积操作。在多标签分类方面,论文使用了sigmoid激活函数和二元交叉熵损失函数。此外,论文还研究了不同的聚合策略,例如平均池化和最大池化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在三个独立机构的数据集上进行了评估,结果表明其具有强大的跨数据集泛化能力,并且与最先进的视觉编码器相比具有竞争力的性能。消融研究表明,不同的聚合策略、边缘加权方案和图连接模式对性能有显著影响。此外,迁移实验表明该方法可以成功地应用于自动放射报告生成和腹部CT数据。

🎯 应用场景

该研究成果可应用于多种医学影像分析任务,例如辅助放射科医生进行疾病诊断、自动生成放射报告、以及进行大规模医学影像数据分析。通过提高诊断效率和准确性,该方法有望减轻放射科医生的工作负担,并改善患者的诊疗效果。未来,该方法可以扩展到其他医学影像模态,例如MRI和PET。

📄 摘要(原文)

With the growing volume of CT examinations, there is an increasing demand for automated tools such as organ segmentation, abnormality detection, and report generation to support radiologists in managing their clinical workload. Multi-label classification of 3D Chest CT scans remains a critical yet challenging problem due to the complex spatial relationships inherent in volumetric data and the wide variability of abnormalities. Existing methods based on 3D convolutional neural networks struggle to capture long-range dependencies, while Vision Transformers often require extensive pre-training on large-scale, domain-specific datasets to perform competitively. In this work of academic research, we propose a 2.5D alternative by introducing a new graph-based framework that represents 3D CT volumes as structured graphs, where axial slice triplets serve as nodes processed through spectral graph convolution, enabling the model to reason over inter-slice dependencies while maintaining complexity compatible with clinical deployment. Our method, trained and evaluated on 3 datasets from independent institutions, achieves strong cross-dataset generalization, and shows competitive performance compared to state-of-the-art visual encoders. We further conduct comprehensive ablation studies to evaluate the impact of various aggregation strategies, edge-weighting schemes, and graph connectivity patterns. Additionally, we demonstrate the broader applicability of our approach through transfer experiments on automated radiology report generation and abdominal CT data.