Learning from Compressed CT: Feature Attention Style Transfer and Structured Factorized Projections for Resource-Efficient Medical Image Analysis

📄 arXiv: 2605.00448v1 📥 PDF

作者: Shadid Yousuf, S. M. Mahbubur Rahman, Mohammed Imamul Hassan Bhuiyan

分类: cs.CV, eess.IV

发布日期: 2026-05-01


💡 一句话要点

提出FAST和SFP,用于压缩CT图像的资源高效医学图像分析

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像分析 压缩CT图像 知识蒸馏 特征注意力 结构化分解投影 对比学习 资源高效 胸部异常检测

📋 核心要点

  1. 现有医学影像AI部署面临高计算复杂性和资源消耗,特别是处理未压缩的CT数据。
  2. 论文提出FAST蒸馏框架和SFP结构化分解投影,旨在从压缩CT图像中高效提取特征并降低参数量。
  3. 实验表明,CT-Lite在压缩CT图像上实现了与未压缩图像接近的性能,AUROC差距在5-7%以内。

📝 摘要(中文)

医学影像中人工智能的部署受到高计算复杂性和体积数据资源密集型处理的阻碍。尽管胸部CT扫描比投影X射线提供更丰富的诊断信息,但由于处理未压缩体积图像(通常以NIfTI或DICOM格式存储)的计算负担,其在基于AI的诊断中的应用仍然有限。为了满足对低资源部署和高效电子数据传输日益增长的需求,我们研究了使用JPEG压缩的胸部CT扫描进行胸部异常检测。我们提出了一种新颖的蒸馏框架——特征注意力风格迁移(FAST),该框架将高保真CT表示的激活模式和结构关系迁移到在压缩输入上运行的时空视觉编码器。通过将基于Gram矩阵的注意力风格保持与双重注意力特征对齐相结合,FAST能够从降级的体积中提取鲁棒的特征。此外,我们引入了结构化分解投影(SFP),利用块张量列分解作为密集投影层的参数高效替代方案,将投影头参数减少了近一半。我们的对比学习流程CT-Lite将这些组件与基于SigLIP的多模态对齐目标相结合。在CT-RATE、NIDCH和Rad-ChestCT上的实验表明,尽管CT-Lite在压缩输入上运行且参数明显更少,但在所有三个数据集上实现的AUROC都在未压缩输入基线的5-7%以内,为资源约束下的基于AI的临床评估铺平了道路。

🔬 方法详解

问题定义:医学图像分析,特别是胸部CT图像分析,面临着计算资源需求高的问题。未压缩的CT图像数据量大,处理起来耗时耗力,阻碍了AI在资源受限环境下的应用。现有方法难以直接应用于压缩后的CT图像,因为压缩会引入伪影并降低图像质量。

核心思路:论文的核心思路是利用知识蒸馏,将从高保真未压缩CT图像中学习到的知识迁移到处理压缩CT图像的模型中。通过特征注意力风格迁移(FAST),模型能够学习到未压缩图像的激活模式和结构关系,从而在压缩图像上也能提取到鲁棒的特征。同时,使用结构化分解投影(SFP)来降低模型的参数量,进一步提高资源利用率。

技术框架:CT-Lite框架包含以下几个主要模块:1) 特征提取器:用于提取压缩CT图像的特征。2) FAST模块:用于将未压缩CT图像的知识迁移到压缩CT图像的特征表示中。3) SFP模块:用于降低投影层的参数量。4) 对比学习模块:使用SigLIP-based的多模态对齐目标进行训练,提高模型的泛化能力。整体流程是,首先使用特征提取器提取压缩CT图像的特征,然后通过FAST模块进行特征增强,接着使用SFP模块进行投影,最后通过对比学习进行模型训练。

关键创新:论文的关键创新在于提出了FAST和SFP两个模块。FAST通过结合Gram矩阵的注意力风格保持和双重注意力特征对齐,能够有效地从压缩CT图像中提取鲁棒的特征。SFP利用块张量列分解,显著降低了投影层的参数量,提高了模型的效率。此外,将FAST和SFP集成到CT-Lite框架中,并使用对比学习进行训练,进一步提高了模型的性能。

关键设计:FAST模块的关键设计包括:1) 使用Gram矩阵来捕捉特征的风格信息。2) 使用双重注意力机制来对齐未压缩和压缩图像的特征。SFP模块的关键设计在于使用块张量列分解来近似密集投影层,从而降低参数量。对比学习模块使用SigLIP作为多模态对齐目标,损失函数包括对比损失和风格损失。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CT-Lite在CT-RATE、NIDCH和Rad-ChestCT三个数据集上,使用压缩CT图像进行训练,AUROC指标与使用未压缩图像的基线相比,差距仅为5-7%。同时,SFP模块的使用使得投影头参数减少了近一半,显著提高了模型的效率。这些结果表明,该方法能够在资源受限的环境下实现高性能的医学图像分析。

🎯 应用场景

该研究成果可应用于资源受限的医疗机构,例如偏远地区的医院或移动医疗设备。通过处理压缩的CT图像,可以降低对计算资源的需求,使得AI辅助诊断能够在更广泛的场景下应用。此外,该方法还可以用于远程医疗,减少数据传输的带宽需求,提高诊断效率。

📄 摘要(原文)

The deployment of artificial intelligence in medical imaging is hindered by high computational complexity and resource-intensive processing of volumetric data. Although chest computed tomography (CT) volumes offer richer diagnostic information than projection radiography, their use in AI-based diagnosis remains limited due to the computational burden of processing uncompressed volumetric images (typically stored in NIfTI or DICOM format). Addressing the growing need for low-resource deployment and efficient electronic data transfer, we investigate the utilization of JPEG-compressed chest CT volumes for thoracic abnormality detection. We propose Feature Attention Style Transfer (FAST), a novel distillation framework that transfers both activation patterns and structural relationships from high-fidelity CT representations to a spatiotemporal visual encoder operating on compressed inputs. By combining Gram-matrix-based attention style preservation with dual-attention feature alignment, FAST enables robust feature extraction from degraded volumes. Furthermore, we introduce Structured Factorized Projection (SFP), leveraging Block Tensor Train decomposition as a parameter-efficient alternative to dense projection layers, reducing projection-head parameters by almost half. Our contrastive learning pipeline, CT-Lite, integrates these components with a SigLIP-based multimodal alignment objective. Experiments on CT-RATE, NIDCH, and Rad-ChestCT demonstrate that CT-Lite achieves AUROC within 5-7\% of the uncompressed-input baseline across all three datasets, despite operating on compressed inputs with significantly fewer parameters, paving the way for AI-based clinical evaluation under resource constraints.