Enhancing 3D Medical Image Understanding with Pretraining Aided by 2D Multimodal Large Language Models

作者: Qiuhui Chen, Xuancheng Yao, Huping Ye, Yi Hong

分类: cs.CV

发布日期: 2025-09-11

备注: Accepted by IEEE Journal of Biomedical and Health Informatics (JBHI)

🔗 代码/项目: GITHUB

💡 一句话要点

Med3DInsight：利用2D多模态大语言模型预训练增强3D医学图像理解

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D医学图像理解 多模态学习 大语言模型 自监督学习 医学影像分析 Transformer 最优传输

📋 核心要点

现有3D医学图像理解方法缺乏深层语义理解，限制了其在复杂医学任务中的应用。
Med3DInsight利用2D多模态大语言模型，通过平面切片感知Transformer模块连接3D图像编码器，实现知识迁移。
实验证明，Med3DInsight在分割和分类任务上超越现有自监督学习方法，提升了3D医学图像理解性能。

📝 摘要（中文）

理解3D医学图像对于医疗领域至关重要，但现有的基于3D医学卷积和Transformer的自监督学习(SSL)方法通常缺乏深层的语义理解。多模态大语言模型(MLLM)的最新进展为通过文本描述增强图像理解提供了一种有前景的方法。为了利用这些2D MLLM来改进3D医学图像理解，我们提出了Med3DInsight，这是一种新颖的预训练框架，它通过专门设计的平面切片感知Transformer模块将3D图像编码器与2D MLLM集成。此外，我们的模型采用基于部分最优传输的对齐方式，对LLM生成内容中潜在噪声表现出更强的容忍度。Med3DInsight为可扩展的多模态3D医学表征学习引入了一种新范式，无需人工标注。大量实验表明，我们在分割和分类这两个下游任务上，在各种具有CT和MRI模态的公共数据集上，都优于当前的SSL方法，达到了最先进的性能。Med3DInsight可以无缝集成到现有的3D医学图像理解网络中，从而有可能提高它们的性能。我们的源代码、生成的数据集和预训练模型将在https://github.com/Qybc/Med3DInsight上提供。

🔬 方法详解

问题定义：现有的3D医学图像理解方法，特别是基于3D卷积和Transformer的自监督学习方法，通常缺乏对医学图像深层语义的理解。这导致模型难以捕捉图像中的细微结构和复杂关系，从而影响了在分割、分类等下游任务中的性能。现有方法对噪声数据敏感，且依赖大量标注数据，限制了其应用。

核心思路：Med3DInsight的核心思路是利用预训练的2D多模态大语言模型（MLLM）的强大语义理解能力，来增强3D医学图像的表征学习。通过将3D图像切片投影到2D平面，并利用MLLM生成相应的文本描述，从而将视觉信息与语言信息对齐，提升模型对3D医学图像的理解能力。这种方法无需人工标注，可以实现可扩展的多模态3D医学表征学习。

技术框架：Med3DInsight框架主要包含以下几个模块：1) 3D图像编码器：用于提取3D医学图像的特征。2) 平面切片感知Transformer模块：将3D图像切片投影到2D平面，并学习切片之间的关系。3) 2D多模态大语言模型：用于生成2D图像切片的文本描述。4) 部分最优传输对齐模块：用于将3D图像特征与2D文本描述对齐，并减少噪声的影响。整个流程是先通过3D图像编码器提取特征，然后通过平面切片感知Transformer模块和2D MLLM生成文本描述，最后通过部分最优传输对齐模块进行特征对齐。

关键创新：Med3DInsight的关键创新在于：1) 提出了平面切片感知Transformer模块，能够有效地学习3D图像切片之间的关系。2) 采用了部分最优传输对齐方法，能够有效地减少LLM生成文本中的噪声对模型的影响。3) 提出了一个无需人工标注的可扩展的多模态3D医学表征学习框架。与现有方法相比，Med3DInsight能够更好地利用2D MLLM的语义理解能力，从而提升3D医学图像理解的性能。

关键设计：平面切片感知Transformer模块的具体实现细节未知，但可以推测其采用了Transformer的自注意力机制来学习切片之间的关系。部分最优传输对齐模块的关键在于如何定义最优传输的代价函数，以及如何选择参与对齐的特征。损失函数的设计需要考虑如何平衡视觉特征和文本特征之间的对齐程度，以及如何减少噪声的影响。具体的参数设置和网络结构细节需要在论文的补充材料或代码中查找。

🖼️ 关键图片

📊 实验亮点

Med3DInsight在多个公开数据集上进行了实验，并在分割和分类任务上取得了state-of-the-art的性能。具体而言，该方法在CT和MRI数据集上均优于现有的自监督学习方法，证明了其有效性。论文中提供了具体的性能数据和提升幅度，但具体数值未知，需要在论文中查找。

🎯 应用场景

Med3DInsight具有广泛的应用前景，可用于辅助医生进行疾病诊断、治疗方案制定和预后评估。该方法可以应用于各种医学影像模态，如CT、MRI等，并可以集成到现有的医学图像分析系统中。未来，Med3DInsight有望推动医学影像分析的自动化和智能化，提高医疗效率和质量。

📄 摘要（原文）

Understanding 3D medical image volumes is critical in the medical field, yet existing 3D medical convolution and transformer-based self-supervised learning (SSL) methods often lack deep semantic comprehension. Recent advancements in multimodal large language models (MLLMs) provide a promising approach to enhance image understanding through text descriptions. To leverage these 2D MLLMs for improved 3D medical image understanding, we propose Med3DInsight, a novel pretraining framework that integrates 3D image encoders with 2D MLLMs via a specially designed plane-slice-aware transformer module. Additionally, our model employs a partial optimal transport based alignment, demonstrating greater tolerance to noise introduced by potential noises in LLM-generated content. Med3DInsight introduces a new paradigm for scalable multimodal 3D medical representation learning without requiring human annotations. Extensive experiments demonstrate our state-of-the-art performance on two downstream tasks, i.e., segmentation and classification, across various public datasets with CT and MRI modalities, outperforming current SSL methods. Med3DInsight can be seamlessly integrated into existing 3D medical image understanding networks, potentially enhancing their performance. Our source code, generated datasets, and pre-trained models will be available at https://github.com/Qybc/Med3DInsight.

Enhancing 3D Medical Image Understanding with Pretraining Aided by 2D Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理