OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

📄 arXiv: 2602.20752v1 📥 PDF

作者: Tian Lan, Lei Xu, Zimu Yuan, Shanggui Liu, Jiajun Liu, Jiaxin Liu, Weilai Xiang, Hongyu Yang, Dong Jiang, Jianxin Yin, Dingyu Wang

分类: cs.CV, cs.AI

发布日期: 2026-02-24


💡 一句话要点

OrthoDiffusion:用于肌肉骨骼MRI解释的通用多任务扩散模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 肌肉骨骼MRI 自监督学习 多任务学习 医学影像分析

📋 核心要点

  1. 肌肉骨骼MRI解读面临挑战,需要专业知识且易出错,现有方法难以兼顾效率与准确性。
  2. OrthoDiffusion利用三维扩散模型,通过自监督学习不同方向的MRI图像特征,实现多任务统一。
  3. 实验表明,OrthoDiffusion在分割和诊断任务中表现出色,且在数据稀缺和跨中心情况下依然稳健。

📝 摘要(中文)

肌肉骨骼疾病是全球健康的重要负担,也是导致残疾的主要原因。MRI对于准确诊断至关重要,但其解读极具挑战性。放射科医生必须在不同成像平面的复杂解剖结构中识别多种潜在异常,这个过程需要丰富的专业知识且容易出现差异。我们开发了OrthoDiffusion,一个统一的基于扩散的基石模型,专为多任务肌肉骨骼MRI解释而设计。该框架利用三个特定方向的3D扩散模型,在15948个未标记的膝关节MRI扫描上以自监督方式进行预训练,以学习来自矢状、冠状和轴向视图的鲁棒解剖特征。这些特定视图的表示被整合以支持各种临床任务,包括解剖分割和多标签诊断。我们的评估表明,OrthoDiffusion在11个膝关节结构的分割和8个膝关节异常的检测中取得了优异的性能。该模型在不同的临床中心和MRI磁场强度下表现出显著的鲁棒性,始终优于传统的监督模型。值得注意的是,在标记数据稀缺的情况下,OrthoDiffusion仅使用10%的训练标签即可保持较高的诊断精度。此外,从膝关节成像中学习到的解剖表示被证明可以高度迁移到其他关节,在踝关节和肩关节的11种疾病中实现了强大的诊断性能。这些发现表明,基于扩散的基石模型可以作为多疾病诊断和解剖分割的统一平台,从而有可能提高现实临床工作流程中肌肉骨骼MRI解释的效率和准确性。

🔬 方法详解

问题定义:论文旨在解决肌肉骨骼MRI图像解读中存在的挑战,包括需要专业知识、易出错、效率低等问题。现有方法通常是针对特定任务的监督学习模型,泛化能力差,且需要大量标注数据。此外,不同成像平面(矢状、冠状、轴向)的信息融合也是一个难点。

核心思路:论文的核心思路是利用扩散模型强大的生成能力和表征学习能力,通过自监督学习从大量未标注的MRI图像中提取鲁棒的解剖特征。然后,将这些特征用于各种下游任务,如解剖分割和多标签诊断。通过这种方式,可以减少对标注数据的依赖,提高模型的泛化能力和效率。

技术框架:OrthoDiffusion框架包含三个主要模块:1) 三个方向特定的3D扩散模型,分别处理矢状、冠状和轴向的MRI图像;2) 自监督预训练阶段,利用大量未标注的膝关节MRI图像训练扩散模型,学习解剖特征;3) 下游任务微调阶段,将预训练的扩散模型用于解剖分割和多标签诊断任务,并使用少量标注数据进行微调。

关键创新:OrthoDiffusion的关键创新在于:1) 提出了一个统一的基于扩散的基石模型,可以同时处理多个任务;2) 利用三个方向特定的3D扩散模型,充分利用不同成像平面的信息;3) 通过自监督预训练,减少了对标注数据的依赖,提高了模型的泛化能力。

关键设计:在扩散模型方面,采用了标准的DDPM架构,并针对3D MRI图像进行了优化。损失函数包括扩散模型的重建损失和下游任务的交叉熵损失。在网络结构方面,使用了3D U-Net作为扩散模型的骨干网络。为了融合不同方向的信息,采用了简单的拼接操作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OrthoDiffusion在膝关节11个结构的分割和8个异常的检测中表现出色,且在不同临床中心和MRI磁场强度下表现出显著的鲁棒性,始终优于传统的监督模型。在仅使用10%训练标签的情况下,仍保持较高的诊断精度。此外,该模型学习到的解剖表示可迁移到踝关节和肩关节的11种疾病诊断中。

🎯 应用场景

OrthoDiffusion可应用于临床肌肉骨骼MRI图像的自动解读,辅助医生进行诊断和治疗方案制定。该模型能够提高诊断效率和准确性,减少人为误差,并降低对专业知识的依赖。未来,该技术有望推广到其他医学影像领域,实现更广泛的临床应用。

📄 摘要(原文)

Musculoskeletal disorders represent a significant global health burden and are a leading cause of disability worldwide. While MRI is essential for accurate diagnosis, its interpretation remains exceptionally challenging. Radiologists must identify multiple potential abnormalities within complex anatomical structures across different imaging planes, a process that requires significant expertise and is prone to variability. We developed OrthoDiffusion, a unified diffusion-based foundation model designed for multi-task musculoskeletal MRI interpretation. The framework utilizes three orientation-specific 3D diffusion models, pre-trained in a self-supervised manner on 15,948 unlabeled knee MRI scans, to learn robust anatomical features from sagittal, coronal, and axial views. These view-specific representations are integrated to support diverse clinical tasks, including anatomical segmentation and multi-label diagnosis. Our evaluation demonstrates that OrthoDiffusion achieves excellent performance in the segmentation of 11 knee structures and the detection of 8 knee abnormalities. The model exhibited remarkable robustness across different clinical centers and MRI field strengths, consistently outperforming traditional supervised models. Notably, in settings where labeled data was scarce, OrthoDiffusion maintained high diagnostic precision using only 10\% of training labels. Furthermore, the anatomical representations learned from knee imaging proved highly transferable to other joints, achieving strong diagnostic performance across 11 diseases of the ankle and shoulder. These findings suggest that diffusion-based foundation models can serve as a unified platform for multi-disease diagnosis and anatomical segmentation, potentially improving the efficiency and accuracy of musculoskeletal MRI interpretation in real-world clinical workflows.