A Generalist Foundation Model for Total-body PET/CT Enables Diagnostic Reporting and System-wide Metabolic Profiling
作者: Wei Chen, Liang Wu, Shuyi Lu, Yuanyuan Sun, Wenkai Bi, Zilong Yuan, Yaoyao He, Feng Wang, Junchi Ma, Shuyong Liu, Zhaoping Cheng, Xiaoyan Hu, Jianfeng Qiu
分类: cs.CV
发布日期: 2026-01-19
💡 一句话要点
SDF-HOLO:用于全身PET/CT的通用基础模型,实现诊断报告和系统级代谢分析
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全身PET/CT 多模态融合 基础模型 医学影像AI 系统级代谢分析
📋 核心要点
- 现有医学AI模型在处理全身PET/CT数据时,面临异构信号、大范围覆盖和复杂语义的挑战,限制了其在临床应用中的潜力。
- SDF-HOLO通过双流编码器解耦CT和PET表征,利用跨模态交互融合信息,并采用分层上下文建模捕捉全身长程依赖关系。
- 实验表明,SDF-HOLO在肿瘤分割、病灶检测和报告生成等任务上优于现有方法,并能实现系统级代谢分析。
📝 摘要(中文)
全身PET/CT能够实现系统范围内的分子成像,但其异构的解剖和代谢信号、约2米的轴向覆盖范围以及结构化的放射学语义对现有的医学AI模型提出了挑战,因为这些模型通常假设单模态输入、局部视野和粗略的图像-文本对齐。我们提出了SDF-HOLO(系统性双流融合全息模型),这是一个用于整体全身PET/CT的多模态基础模型,预训练数据超过10,000名患者。SDF-HOLO通过双流编码器解耦CT和PET表征学习,并通过跨模态交互模块将它们耦合,从而允许解剖学上下文细化PET聚合,同时代谢显著性引导细微的形态学推理。为了建模全身的长程依赖关系,分层上下文建模将高效的局部窗口与全局注意力相结合。为了连接体素和临床语言,我们使用解剖分割掩码作为显式的语义锚点,并在预训练期间执行体素-掩码-文本对齐。在肿瘤分割、低剂量病灶检测和多语言诊断报告生成方面,SDF-HOLO优于强大的特定任务和临床参考基线,同时减少了定位错误和幻觉性发现。除了局部解释之外,该模型还能够进行系统范围的代谢分析,并揭示与肿瘤相关的器官间代谢网络相互作用的指纹,为全身PET/CT诊断和系统级精准肿瘤学提供了一个可扩展的计算基础。
🔬 方法详解
问题定义:现有医学AI模型难以有效处理全身PET/CT数据,主要痛点在于:1) 异构的解剖和代谢信号难以融合;2) 全身范围的长程依赖关系难以建模;3) 图像与临床语言之间的语义鸿沟难以弥合。这些限制导致模型在诊断任务中表现不佳,且无法进行系统级的代谢分析。
核心思路:SDF-HOLO的核心思路是构建一个多模态基础模型,通过解耦和耦合CT和PET表征、分层上下文建模以及体素-掩码-文本对齐,实现对全身PET/CT数据的全面理解和利用。该模型旨在克服现有方法的局限性,提高诊断准确性,并为系统级精准肿瘤学提供支持。
技术框架:SDF-HOLO的整体架构包含以下主要模块:1) 双流编码器:分别处理CT和PET图像,学习各自的特征表示;2) 跨模态交互模块:融合CT和PET特征,实现模态间的信息交互;3) 分层上下文建模:结合局部窗口和全局注意力,捕捉全身范围内的长程依赖关系;4) 体素-掩码-文本对齐:将体素特征与解剖分割掩码和临床文本对齐,弥合图像与语言之间的语义鸿沟。
关键创新:SDF-HOLO的关键创新在于:1) 双流编码器和跨模态交互模块的设计,能够有效融合CT和PET信息;2) 分层上下文建模方法,能够捕捉全身范围内的长程依赖关系;3) 体素-掩码-文本对齐策略,能够弥合图像与语言之间的语义鸿沟。这些创新使得SDF-HOLO能够更好地理解全身PET/CT数据,并在诊断任务中取得更好的表现。
关键设计:SDF-HOLO的关键设计包括:1) 双流编码器的具体网络结构(例如,使用的卷积神经网络或Transformer);2) 跨模态交互模块的具体实现方式(例如,注意力机制或特征拼接);3) 分层上下文建模中局部窗口的大小和全局注意力的计算方法;4) 体素-掩码-文本对齐的具体损失函数和训练策略。论文中可能还涉及其他重要的参数设置和网络结构细节,但具体信息未知。
📊 实验亮点
SDF-HOLO在肿瘤分割、低剂量病灶检测和多语言诊断报告生成等任务上均取得了显著的性能提升,优于特定任务和临床参考基线。该模型还能够减少定位错误和幻觉性发现,提高诊断的可靠性。此外,SDF-HOLO能够进行系统范围的代谢分析,揭示肿瘤相关的器官间代谢网络相互作用。
🎯 应用场景
SDF-HOLO具有广泛的应用前景,可用于肿瘤诊断、疗效评估、药物研发等领域。通过系统级的代谢分析,该模型能够揭示肿瘤与全身代谢网络的相互作用,为精准肿瘤学提供新的视角。此外,该模型还可应用于其他全身成像模态,推动医学影像AI的发展。
📄 摘要(原文)
Total-body PET/CT enables system-wide molecular imaging, but heterogeneous anatomical and metabolic signals, approximately 2 m axial coverage, and structured radiology semantics challenge existing medical AI models that assume single-modality inputs, localized fields of view, and coarse image-text alignment. We introduce SDF-HOLO (Systemic Dual-stream Fusion Holo Model), a multimodal foundation model for holistic total-body PET/CT, pre-trained on more than 10,000 patients. SDF-HOLO decouples CT and PET representation learning with dual-stream encoders and couples them through a cross-modal interaction module, allowing anatomical context to refine PET aggregation while metabolic saliency guides subtle morphological reasoning. To model long-range dependencies across the body, hierarchical context modeling combines efficient local windows with global attention. To bridge voxels and clinical language, we use anatomical segmentation masks as explicit semantic anchors and perform voxel-mask-text alignment during pre-training. Across tumor segmentation, low-dose lesion detection, and multilingual diagnostic report generation, SDF-HOLO outperforms strong task-specific and clinical-reference baselines while reducing localization errors and hallucinated findings. Beyond focal interpretation, the model enables system-wide metabolic profiling and reveals tumor-associated fingerprints of inter-organ metabolic network interactions, providing a scalable computational foundation for total-body PET/CT diagnostics and system-level precision oncology.