DeepCORO-CLIP: A Multi-View Foundation Model for Comprehensive Coronary Angiography Video-Text Analysis and External Validation
作者: Sarra Harrabi, Yichen Wu, Geoffrey H. Tison, Minhaj Ansari, Milos Vukadinovic, David Ouyang, Joshua P. Barrios, Jacques Delfrate, Robert Avram
分类: cs.CV
发布日期: 2026-03-18
备注: 69 pages, 5 figures
💡 一句话要点
DeepCORO-CLIP:用于冠状动脉造影视频-文本分析的多视角基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 冠状动脉造影 视频-文本对比学习 多视角学习 深度学习 医学影像分析
📋 核心要点
- 现有AI方法在冠状动脉造影分析中,主要依赖单帧或投影,无法进行全面的冠状动脉评估。
- DeepCORO-CLIP通过多视角视频-文本对比学习,构建了一个能够进行研究级别评估的基础模型。
- 实验结果表明,DeepCORO-CLIP在多种冠状动脉疾病检测和预后任务上均取得了优异的性能。
📝 摘要(中文)
冠状动脉造影是评估冠状动脉疾病的金标准,但不同医生之间的视觉解读存在差异。现有的人工智能方法通常分析单帧或投影,主要关注狭窄,限制了全面的冠状动脉评估。我们提出了DeepCORO-CLIP,一个多视角基础模型,通过视频-文本对比学习在蒙特利尔心脏研究所的203,808个造影视频(来自28,117名患者的32,473项研究)上进行训练,并在加州大学旧金山分校的4,249项研究上进行外部验证。DeepCORO-CLIP集成了多个投影,并采用基于注意力的池化进行研究级别的评估,涵盖诊断、预后和疾病进展任务。在显著狭窄检测方面,该模型内部验证的AUROC为0.888,外部验证为0.89。相对于核心实验室定量冠状动脉造影,平均绝对误差为13.6%,低于临床报告的19.0%。该模型在慢性完全闭塞、冠状动脉内血栓和冠状动脉钙化检测方面也表现出色。迁移学习能够以0.79的AUROC预测一年的主要不良心血管事件,并以7.3%的平均绝对误差估计左心室射血分数。嵌入还捕捉了连续检查中的疾病进展。DeepCORO-CLIP在医院部署中的平均推理时间为4.2秒,为护理点的自动冠状动脉造影解释提供了基础。代码、样本数据、模型权重和部署基础设施已公开发布。
🔬 方法详解
问题定义:冠状动脉造影是诊断冠状动脉疾病的金标准,但人工判读存在主观性,且现有AI方法主要分析单帧图像,忽略了多视角信息和时间序列信息,难以进行全面的诊断和预后评估。现有方法在狭窄程度评估、病变类型识别等方面精度不足,且缺乏对疾病进展的有效建模。
核心思路:DeepCORO-CLIP的核心思路是利用多视角冠状动脉造影视频和对应的文本报告,通过对比学习训练一个能够理解视频内容并进行综合评估的基础模型。通过融合多个视角的特征,模型能够更全面地捕捉血管的形态和病变信息。视频-文本对比学习使得模型能够将视觉信息与文本描述对齐,从而更好地理解临床含义。
技术框架:DeepCORO-CLIP的整体框架包括以下几个主要模块:1) 视频编码器:用于提取多视角冠状动脉造影视频的视觉特征。2) 文本编码器:用于提取文本报告的语义特征。3) 注意力池化模块:用于融合来自不同视角的视频特征,生成研究级别的表示。4) 对比学习目标:通过最大化视频和文本表示之间的相似性,训练模型学习视频内容的语义信息。模型首先使用视频编码器和文本编码器分别提取视频和文本的特征,然后使用注意力池化模块融合多视角视频特征,最后通过对比学习目标优化模型参数。
关键创新:DeepCORO-CLIP的关键创新在于:1) 提出了一个多视角视频-文本对比学习框架,能够有效利用多视角冠状动脉造影视频和文本报告的信息。2) 使用注意力池化模块融合多视角特征,能够自适应地选择重要的视角信息。3) 构建了一个大规模的冠状动脉造影视频-文本数据集,为模型的训练和评估提供了基础。与现有方法相比,DeepCORO-CLIP能够更全面地理解冠状动脉造影视频的内容,并进行更准确的诊断和预后评估。
关键设计:视频编码器采用ResNet-3D结构,文本编码器采用BERT结构。对比学习损失函数采用InfoNCE损失。注意力池化模块使用自注意力机制,能够自适应地学习不同视角的权重。模型训练采用Adam优化器,学习率设置为1e-4,batch size设置为32。模型在203,808个冠状动脉造影视频上进行训练,并在4,249个视频上进行外部验证。
📊 实验亮点
DeepCORO-CLIP在显著狭窄检测方面,内部验证的AUROC为0.888,外部验证为0.89。相对于核心实验室定量冠状动脉造影,平均绝对误差为13.6%,低于临床报告的19.0%。在预测一年主要不良心血管事件时,AUROC达到0.79。估计左心室射血分数的平均绝对误差为7.3%。这些结果表明,DeepCORO-CLIP在多种冠状动脉疾病相关任务上均取得了显著的性能提升。
🎯 应用场景
DeepCORO-CLIP可应用于冠状动脉疾病的辅助诊断、预后评估和疾病进展监测。该模型能够自动分析冠状动脉造影视频,为医生提供客观的诊断依据,减少人工判读的主观性。此外,该模型还可用于大规模的临床研究,加速新药研发和治疗方案的优化。未来,该模型有望集成到临床工作流程中,提高诊断效率和准确性。
📄 摘要(原文)
Coronary angiography is the reference standard for evaluating coronary artery disease, yet visual interpretation remains variable between readers. Existing artificial intelligence methods typically analyze single frames or projections and focus mainly on stenosis, limiting comprehensive coronary assessment. We present DeepCORO-CLIP, a multi-view foundation model trained with video-text contrastive learning on 203,808 angiography videos from 28,117 patients across 32,473 studies at the Montreal Heart Institute and externally validated on 4,249 studies from the University of California, San Francisco. DeepCORO-CLIP integrates multiple projections with attention-based pooling for study-level assessment across diagnostic, prognostic, and disease progression tasks. For significant stenosis detection, the model achieved an AUROC of 0.888 internally and 0.89 on external validation. Mean absolute error against core laboratory quantitative coronary angiography was 13.6%, lower than clinical reports at 19.0%. The model also performed strongly for chronic total occlusion, intracoronary thrombus, and coronary calcification detection. Transfer learning enabled prediction of one-year major adverse cardiovascular events with AUROC 0.79 and estimation of left ventricular ejection fraction with mean absolute error 7.3%. Embeddings also captured disease progression across serial examinations. With a mean inference time of 4.2 seconds in hospital deployment, DeepCORO-CLIP provides a foundation for automated coronary angiography interpretation at the point of care. Code, sample data, model weights, and deployment infrastructure are publicly released.