Unleashing Vision Foundation Models for Coronary Artery Segmentation: Parallel ViT-CNN Encoding and Variational Fusion

作者: Caixia Dong, Duwei Dai, Xinyi Han, Fan Liu, Xu Yang, Zongfang Li, Songhua Xu

分类: eess.IV, cs.CV

发布日期: 2025-07-17

期刊: MICCAI2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出并行ViT-CNN编码和变分融合的冠状动脉分割框架，提升CAD辅助诊断精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 冠状动脉分割 视觉基础模型 ViT CNN 变分融合 不确定性量化 医学图像分割

📋 核心要点

冠状动脉分割面临小尺寸、复杂形态和低对比度的挑战，现有方法难以兼顾全局结构和局部细节。
论文提出并行ViT-CNN编码，分别提取全局和局部特征，并通过变分融合自适应地结合两者。
实验结果表明，该框架在多个数据集上显著优于现有方法，提升了冠状动脉分割的精度和泛化能力。

📝 摘要（中文）

精确的冠状动脉分割对于冠状动脉疾病（CAD）的计算机辅助诊断至关重要，但由于其尺寸小、形态复杂以及与周围组织对比度低，仍然具有挑战性。为了解决这些挑战，我们提出了一种新的分割框架，该框架通过并行编码架构利用了视觉基础模型（VFMs）的强大功能。具体来说，VFM中的视觉Transformer（ViT）编码器捕获全局结构特征，并通过最后两个ViT块的激活和注意力引导增强（AGE）模块的集成来增强这些特征，而卷积神经网络（CNN）编码器提取局部细节。这些互补特征使用跨分支变分融合（CVF）模块自适应地融合，该模块对潜在分布进行建模，并应用变分注意力来分配特定于模态的权重。此外，我们引入了一种证据学习不确定性细化（EUR）模块，该模块使用证据理论量化不确定性，并通过结合多尺度特征聚合和注意力机制来细化不确定区域，从而进一步提高分割精度。在内部数据集和两个公共数据集上的大量评估表明，所提出的框架明显优于最先进的方法，在精确的冠状动脉分割中实现了卓越的性能，并展示了跨多个数据集的强大泛化能力。代码可在https://github.com/d1c2x3/CAseg 获取。

🔬 方法详解

问题定义：论文旨在解决冠状动脉分割中，由于血管细小、形态复杂、与周围组织对比度低等因素导致的分割精度不高的问题。现有方法通常难以同时捕捉到全局结构信息和局部细节信息，导致分割结果不准确。

核心思路：论文的核心思路是利用视觉基础模型（VFMs）的强大特征提取能力，并结合ViT和CNN的优势，分别提取全局结构特征和局部细节特征。通过并行编码和变分融合，自适应地整合两种模态的信息，从而提高分割精度。此外，还引入了不确定性细化模块，进一步提升分割结果的可靠性。

技术框架：整体框架包含以下几个主要模块：1) 并行ViT和CNN编码器：ViT编码器捕获全局结构特征，CNN编码器提取局部细节特征。2) 注意力引导增强（AGE）模块：增强ViT编码器提取的全局特征。3) 跨分支变分融合（CVF）模块：自适应地融合ViT和CNN提取的特征。4) 证据学习不确定性细化（EUR）模块：量化不确定性并细化分割结果。

关键创新：论文的关键创新在于：1) 并行ViT-CNN编码架构，充分利用了ViT和CNN的互补优势。2) 跨分支变分融合（CVF）模块，能够自适应地融合不同模态的特征，并建模特征分布。3) 证据学习不确定性细化（EUR）模块，能够有效量化分割结果的不确定性，并进行细化。与现有方法相比，该方法能够更有效地提取全局和局部特征，并提高分割精度和鲁棒性。

关键设计：ViT编码器使用了预训练的视觉基础模型，并对其最后两个block的激活进行增强。AGE模块使用注意力机制来引导特征增强。CVF模块使用变分推断来建模特征分布，并使用变分注意力来分配模态权重。EUR模块使用证据理论来量化不确定性，并使用多尺度特征聚合和注意力机制来细化不确定区域。损失函数未知。

🖼️ 关键图片

📊 实验亮点

该框架在内部数据集和两个公共数据集上进行了评估，结果表明其性能显著优于现有方法。具体性能数据未知，但摘要强调了在精确冠状动脉分割方面的卓越性能以及跨多个数据集的强大泛化能力。代码已开源。

🎯 应用场景

该研究成果可应用于冠状动脉疾病（CAD）的计算机辅助诊断，帮助医生更准确地识别和分割冠状动脉，从而提高诊断效率和准确性。此外，该技术还可以扩展到其他医学图像分割任务，例如血管分割、器官分割等，具有广泛的应用前景。

📄 摘要（原文）

Accurate coronary artery segmentation is critical for computeraided diagnosis of coronary artery disease (CAD), yet it remains challenging due to the small size, complex morphology, and low contrast with surrounding tissues. To address these challenges, we propose a novel segmentation framework that leverages the power of vision foundation models (VFMs) through a parallel encoding architecture. Specifically, a vision transformer (ViT) encoder within the VFM captures global structural features, enhanced by the activation of the final two ViT blocks and the integration of an attention-guided enhancement (AGE) module, while a convolutional neural network (CNN) encoder extracts local details. These complementary features are adaptively fused using a cross-branch variational fusion (CVF) module, which models latent distributions and applies variational attention to assign modality-specific weights. Additionally, we introduce an evidential-learning uncertainty refinement (EUR) module, which quantifies uncertainty using evidence theory and refines uncertain regions by incorporating multi-scale feature aggregation and attention mechanisms, further enhancing segmentation accuracy. Extensive evaluations on one in-house and two public datasets demonstrate that the proposed framework significantly outperforms state-of-the-art methods, achieving superior performance in accurate coronary artery segmentation and showcasing strong generalization across multiple datasets. The code is available at https://github.com/d1c2x3/CAseg.

Unleashing Vision Foundation Models for Coronary Artery Segmentation: Parallel ViT-CNN Encoding and Variational Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理