A multimodal vision foundation model for generalizable knee pathology

📄 arXiv: 2601.18250v1 📥 PDF

作者: Kang Yu, Dingyu Wang, Zimu Yuan, Nan Zhou, Jiajun Liu, Jiaxin Liu, Shanggui Liu, Yaoyan Zheng, Huishu Yuan, Di Huang, Dong Jiang

分类: cs.CV, cs.AI

发布日期: 2026-01-26


💡 一句话要点

OrthoFoundation:用于膝关节病理泛化的多模态视觉基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 骨骼肌肉疾病 多模态学习 自监督学习 视觉基础模型 医学影像分析 膝关节病理 Dinov3

📋 核心要点

  1. 现有骨科AI方法依赖特定任务的监督学习,缺乏跨模态和临床场景的泛化能力,且需要大量标注数据。
  2. OrthoFoundation通过自监督对比学习,从大规模多模态膝关节X光片和MRI图像中学习通用的放射学表征。
  3. OrthoFoundation在多个下游任务中达到SOTA,并展现出优秀的标签效率和跨解剖结构泛化能力。

📝 摘要(中文)

骨骼肌肉疾病是全球残疾的主要原因,对医学影像的精确解读需求迫切。当前骨科人工智能方法主要依赖于特定任务的监督学习,这些方法是分散的,需要大量标注数据,并且缺乏跨模态和临床场景的泛化能力。该领域基础模型的发展受到大规模、高质量、开源骨骼肌肉数据集的限制。为解决这些挑战,我们提出了OrthoFoundation,一个针对骨骼肌肉病理优化的多模态视觉基础模型。我们构建了一个包含来自内部和公共数据库的120万张未标注膝关节X光片和MRI图像的预训练数据集。利用Dinov3作为骨干网络,通过自监督对比学习训练模型,以捕获鲁棒的放射学表征。OrthoFoundation在14个下游任务中实现了最先进的性能,在X光骨关节炎诊断中获得了卓越的准确性,并在MRI结构损伤检测中排名第一。该模型表现出卓越的标签效率,仅使用50%的标注数据即可匹配监督基线。此外,尽管在膝关节图像上进行了预训练,OrthoFoundation仍表现出对髋部、肩部和踝部的卓越的跨解剖结构泛化能力。OrthoFoundation代表了骨骼肌肉成像通用人工智能的重大进步。通过从大规模多模态数据中学习基本的、与关节无关的放射学语义,它克服了传统模型的局限性,为减少标注负担和提高临床诊断准确性提供了一个强大的框架。

🔬 方法详解

问题定义:现有骨科AI模型依赖于特定任务的监督学习,需要大量标注数据,且泛化能力差,难以适应不同的模态和临床场景。缺乏大规模、高质量的骨骼肌肉数据集也限制了基础模型的发展。

核心思路:通过构建大规模多模态(X光和MRI)的膝关节图像数据集,并利用自监督学习方法训练一个通用的视觉基础模型,使其能够学习到与关节无关的放射学语义,从而提高模型在各种下游任务中的性能和泛化能力。

技术框架:OrthoFoundation的整体框架包括数据收集与预处理、模型预训练和下游任务微调三个主要阶段。首先,收集大量的膝关节X光片和MRI图像,并进行预处理。然后,使用Dinov3作为骨干网络,在预训练数据集上进行自监督对比学习,学习通用的放射学表征。最后,将预训练好的模型在各种下游任务上进行微调,评估其性能。

关键创新:该论文的关键创新在于构建了一个大规模多模态的骨骼肌肉数据集,并利用自监督学习方法训练了一个通用的视觉基础模型。该模型能够学习到与关节无关的放射学语义,从而提高了模型在各种下游任务中的性能和泛化能力。此外,该模型还展现出了优秀的标签效率和跨解剖结构泛化能力。

关键设计:模型使用Dinov3作为骨干网络,采用对比学习损失函数进行自监督预训练。具体来说,模型将同一图像的不同视角作为正样本对,将不同图像的视角作为负样本对,通过最大化正样本对之间的相似性,最小化负样本对之间的相似性,来学习通用的放射学表征。预训练数据集包含120万张未标注的膝关节X光片和MRI图像。

📊 实验亮点

OrthoFoundation在14个下游任务中取得了SOTA性能,在X光骨关节炎诊断中获得最佳准确率,在MRI结构损伤检测中排名第一。仅使用50%的标注数据即可达到监督学习基线的性能,展现出卓越的标签效率。此外,该模型还表现出对髋部、肩部和踝部的优秀跨解剖结构泛化能力。

🎯 应用场景

OrthoFoundation可应用于骨科疾病的自动诊断、病情评估和治疗方案制定。该模型能够降低对大量标注数据的依赖,提高诊断效率和准确性,并有望推广到其他骨骼肌肉部位,为骨科临床实践提供更强大的AI支持,加速骨科疾病的精准诊疗。

📄 摘要(原文)

Musculoskeletal disorders represent a leading cause of global disability, creating an urgent demand for precise interpretation of medical imaging. Current artificial intelligence (AI) approaches in orthopedics predominantly rely on task-specific, supervised learning paradigms. These methods are inherently fragmented, require extensive annotated datasets, and often lack generalizability across different modalities and clinical scenarios. The development of foundation models in this field has been constrained by the scarcity of large-scale, curated, and open-source musculoskeletal datasets. To address these challenges, we introduce OrthoFoundation, a multimodal vision foundation model optimized for musculoskeletal pathology. We constructed a pre-training dataset of 1.2 million unlabeled knee X-ray and MRI images from internal and public databases. Utilizing a Dinov3 backbone, the model was trained via self-supervised contrastive learning to capture robust radiological representations. OrthoFoundation achieves state-of-the-art (SOTA) performance across 14 downstream tasks. It attained superior accuracy in X-ray osteoarthritis diagnosis and ranked first in MRI structural injury detection. The model demonstrated remarkable label efficiency, matching supervised baselines using only 50% of labeled data. Furthermore, despite being pre-trained on knee images, OrthoFoundation exhibited exceptional cross-anatomy generalization to the hip, shoulder, and ankle. OrthoFoundation represents a significant advancement toward general-purpose AI for musculoskeletal imaging. By learning fundamental, joint-agnostic radiological semantics from large-scale multimodal data, it overcomes the limitations of conventional models, which provides a robust framework for reducing annotation burdens and enhancing diagnostic accuracy in clinical practice.