Dual-Encoder Transformer-Based Multimodal Learning for Ischemic Stroke Lesion Segmentation Using Diffusion MRI

作者: Muhammad Usman, Azka Rehman, Muhammad Mutti Ur Rehman, Abd Ur Rehman, Muhammad Umar Farooq

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-12-23

💡 一句话要点

提出基于双编码器Transformer的Ischemic Stroke病灶分割方法，提升DWI和ADC图像的分割精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 缺血性卒中 病灶分割 弥散磁共振成像 Transformer 双编码器 多模态学习 TransUNet

📋 核心要点

缺血性卒中病灶分割是临床决策的关键，但DWI和ADC图像的病灶外观差异大，自动分割面临挑战。
论文提出双编码器TransUNet架构，分别学习DWI和ADC的模态特定表示，并结合相邻切片信息。
实验结果表明，该方法优于卷积基线，在ISLES 2022数据集上Dice系数达到85.4%，性能显著提升。

📝 摘要（中文）

本研究针对弥散磁共振成像(MRI)中缺血性卒中病灶的精确分割问题，该分割对于临床决策和结果评估至关重要。弥散加权成像(DWI)和表观弥散系数(ADC)扫描提供了关于急性和亚急性缺血性变化的互补信息。然而，由于病灶外观的多样性，自动病灶描绘仍然具有挑战性。本研究利用ISLES 2022数据集，探索了基于多模态弥散MRI的缺血性卒中病灶分割。对包括U-Net变体、Swin-UNet和TransUNet在内的几种最先进的卷积和基于Transformer的架构进行了基准测试。基于性能，提出了一种双编码器TransUNet架构，用于学习来自DWI和ADC输入的模态特定表示。为了整合空间上下文，使用三切片输入配置整合了相邻切片信息。所有模型都在统一框架下进行训练，并使用Dice相似系数(DSC)进行评估。结果表明，基于Transformer的模型优于卷积基线，并且所提出的双编码器TransUNet实现了最佳性能，在测试集上达到了85.4%的Dice分数。该框架为基于弥散MRI的自动缺血性卒中病灶分割提供了一种稳健的解决方案。

🔬 方法详解

问题定义：论文旨在解决缺血性卒中病灶在弥散磁共振成像（MRI）中的自动分割问题。现有方法，特别是基于卷积神经网络（CNN）的方法，难以有效捕捉DWI和ADC图像中的全局上下文信息，并且对病灶外观的变异性鲁棒性不足。

核心思路：论文的核心思路是利用Transformer架构强大的全局建模能力，并结合双编码器结构，分别提取DWI和ADC图像的模态特定特征。通过这种方式，模型能够更好地理解不同模态的信息，并更准确地分割病灶。

技术框架：整体架构基于TransUNet，包含两个独立的Transformer编码器分支，分别处理DWI和ADC图像。每个编码器提取的特征随后被融合，并输入到UNet风格的解码器中，最终生成分割结果。为了利用空间上下文信息，模型使用三切片输入，即当前切片及其相邻的两个切片。

关键创新：主要的创新点在于双编码器结构，它允许模型分别学习DWI和ADC图像的特征表示，从而更好地利用多模态信息。与传统的单编码器方法相比，双编码器能够更有效地捕捉不同模态之间的差异和互补性。

关键设计：模型采用标准的Transformer编码器结构，并使用Dice损失函数进行训练。三切片输入的设计旨在提供更丰富的空间上下文信息。具体的参数设置（如Transformer的层数、注意力头数等）未知，论文中可能未详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的双编码器TransUNet在ISLES 2022数据集上取得了显著的性能提升，Dice系数达到了85.4%。相比于传统的卷积神经网络（如U-Net及其变体）和单编码器TransUNet，该方法在分割精度上具有明显优势，验证了双编码器结构和Transformer架构的有效性。

🎯 应用场景

该研究成果可应用于临床辅助诊断，帮助医生更快速、准确地分割缺血性卒中病灶，从而制定更有效的治疗方案。此外，该技术还可用于卒中预后评估和临床研究，为卒中患者的康复提供支持。未来，该方法有望推广到其他脑部疾病的病灶分割任务中。

📄 摘要（原文）

Accurate segmentation of ischemic stroke lesions from diffusion magnetic resonance imaging (MRI) is essential for clinical decision-making and outcome assessment. Diffusion-Weighted Imaging (DWI) and Apparent Diffusion Coefficient (ADC) scans provide complementary information on acute and sub-acute ischemic changes; however, automated lesion delineation remains challenging due to variability in lesion appearance. In this work, we study ischemic stroke lesion segmentation using multimodal diffusion MRI from the ISLES 2022 dataset. Several state-of-the-art convolutional and transformer-based architectures, including U-Net variants, Swin-UNet, and TransUNet, are benchmarked. Based on performance, a dual-encoder TransUNet architecture is proposed to learn modality-specific representations from DWI and ADC inputs. To incorporate spatial context, adjacent slice information is integrated using a three-slice input configuration. All models are trained under a unified framework and evaluated using the Dice Similarity Coefficient (DSC). Results show that transformer-based models outperform convolutional baselines, and the proposed dual-encoder TransUNet achieves the best performance, reaching a Dice score of 85.4% on the test set. The proposed framework offers a robust solution for automated ischemic stroke lesion segmentation from diffusion MRI.

Dual-Encoder Transformer-Based Multimodal Learning for Ischemic Stroke Lesion Segmentation Using Diffusion MRI

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理