EXACT: an explainable anomaly-aware vision foundation model for analysis of 3D chest CT

作者: Xuguang Bai, Mingxuan Liu, Tongxi Song, Yifei Chen, Hongjia Yang, Kasidit Anmahapong, Zihan Li, Ying Zhou, Qiyuan Tian

分类: cs.CV

发布日期: 2026-04-27

💡 一句话要点

EXACT：用于3D胸部CT分析的可解释异常感知视觉基础模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学影像分析 胸部CT 异常检测 弱监督学习 视觉基础模型

📋 核心要点

现有方法难以在三维CT图像中同时进行疾病识别、异常定位和提供可解释的视觉证据。
EXACT通过解剖学感知的弱监督预训练，从CT扫描和放射报告中学习空间解析的异常感知表示。
EXACT在多项CT任务中表现出显著提升，包括多疾病诊断、零样本异常定位和报告生成。

📝 摘要（中文）

胸部CT是检测和管理胸部疾病的核心，但日益增长的规模和复杂性超过了仅靠扫描层面预测所能解决的范围。临床上实用的CT人工智能不仅要识别整个体积中的疾病，还要定位异常并提供可解释的视觉证据。现有的视觉-语言基础模型通常将扫描和报告压缩成全局图像-文本表示，限制了它们保留空间证据和支持临床意义解释的能力。本文开发了EXACT，一种用于三维胸部CT的可解释异常感知基础模型，它从配对的临床扫描和放射学报告中学习空间解析表示。EXACT在25692个CT-报告对上使用解剖学感知的弱监督进行预训练，联合学习器官分割和多实例异常定位，无需手动体素级注释。由此产生的器官特异性异常感知图为每个体素分配一个疾病特异性异常评分，该评分被限制在其相应的解剖结构中，共同编码病灶范围和器官层面上下文。在回顾性跨国和多中心评估中，EXACT在临床相关的CT任务中表现出广泛而一致的改进，涵盖多疾病诊断、零样本异常定位、下游适应和视觉基础报告生成，优于现有的三维医学基础模型。通过将常规临床CT扫描和自由文本报告转换为可解释的体素级表示，EXACT为可信的体积医学人工智能建立了一个可扩展的范例。

🔬 方法详解

问题定义：现有方法，特别是视觉-语言基础模型，在处理三维胸部CT图像时，通常将扫描和报告压缩成全局表示，丢失了空间细节，限制了模型的可解释性和定位异常的能力。因此，需要一种能够保留空间信息，并能进行异常定位和提供可解释视觉证据的模型。

核心思路：EXACT的核心思路是利用解剖学感知的弱监督学习，从配对的CT扫描和放射报告中学习空间解析的表示。通过联合学习器官分割和多实例异常定位，模型能够为每个体素分配一个疾病特异性异常评分，从而实现异常的精确定位和可解释性。

技术框架：EXACT的整体框架包括以下几个主要模块：1) 数据预处理：对CT扫描和放射报告进行预处理，包括图像标准化和文本解析。2) 解剖学感知弱监督预训练：使用CT扫描和放射报告对模型进行预训练，联合学习器官分割和多实例异常定位。3) 异常感知图生成：为每个体素生成疾病特异性异常评分，并将其限制在相应的解剖结构中。4) 下游任务适应：将预训练的模型应用于各种下游任务，如多疾病诊断、零样本异常定位和报告生成。

关键创新：EXACT的关键创新在于其解剖学感知的弱监督预训练方法，该方法无需手动体素级注释，即可学习到空间解析的异常感知表示。此外，EXACT生成的器官特异性异常感知图能够为每个体素提供疾病特异性异常评分，从而实现异常的精确定位和可解释性。

关键设计：EXACT使用了一种多实例学习框架，其中每个CT扫描被视为一个包含多个实例（体素）的包。模型的目标是预测每个实例的异常评分，并将其与放射报告中的疾病信息对齐。损失函数包括器官分割损失和多实例异常定位损失。具体的网络结构细节未知。

📊 实验亮点

EXACT在多项临床相关的CT任务中表现出显著提升，包括多疾病诊断、零样本异常定位、下游适应和视觉基础报告生成，优于现有的三维医学基础模型。具体性能数据未知，但论文强调了其在跨国和多中心评估中的广泛和一致的改进。

🎯 应用场景

EXACT具有广泛的应用前景，可用于辅助医生进行胸部CT图像的诊断和分析，提高诊断效率和准确性。该模型还可以用于开发智能报告生成系统，自动生成包含异常定位和描述的放射学报告。此外，EXACT还可以应用于药物研发和临床试验，用于评估药物疗效和监测疾病进展。

📄 摘要（原文）

Chest computed tomography (CT) is central to the detection and management of thoracic disease, yet the growing scale and complexity of volumetric imaging increasingly exceed what can be addressed by scan-level prediction alone. Clinically useful AI for CT must not only recognize disease across the whole volume, but also localize abnormalities and provide interpretable visual evidence. Existing vision-language foundation models typically compress scans and reports into global image-text representations, limiting their ability to preserve spatial evidence and support clinically meaningful interpretation. Here we developed EXACT, an explainable anomaly-aware foundation model for three-dimensional chest CT that learns spatially resolved representations from paired clinical scans and radiology reports. EXACT was pre-trained on 25,692 CT-reports pairs using anatomy-aware weak supervision, jointly learning organ segmentation and multi-instance anomaly localization without manual voxel-level annotations. The resulting organ-specific anomaly-aware maps assign each voxel a disease-specific anomaly score confined to its corresponding anatomy, jointly encoding lesion extent and organ-level context. In retrospective multinational and multi-center evaluations, EXACT showed broad and consistent improvements across clinically relevant CT tasks, spanning multi-disease diagnosis, zero-shot anomaly localization, downstream adaptation, and visually grounded report generation, outperforming existing three-dimensional medical foundation models. By transforming routine clinical CT scans and free-text reports into explainable voxel-level representations, EXACT establishes a scalable paradigm for trustworthy volumetric medical AI.

EXACT: an explainable anomaly-aware vision foundation model for analysis of 3D chest CT

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理