USCNet: Transformer-Based Multimodal Fusion with Segmentation Guidance for Urolithiasis Classification

📄 arXiv: 2604.07141v1 📥 PDF

作者: Changmiao Wang, Songqi Zhang, Yongquan Zhang, Yifei Wang, Liya Liu, Nannan Li, Xingzhi Li, Jiexin Pan, Yi Jiang, Xiang Wan, Hai Wang, Ahmed Elazab

分类: cs.CV

发布日期: 2026-04-08

备注: Accepted by IEEE Journal of Biomedical and Health Informatics. Early Access

DOI: 10.1109/JBHI.2026.3680589

🔗 代码/项目: GITHUB


💡 一句话要点

USCNet:基于Transformer的多模态融合与分割引导的尿路结石分类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 肾结石分类 多模态融合 Transformer 分割引导 CT图像 电子健康记录 深度学习

📋 核心要点

  1. 现有肾结石成分分析依赖术后样本,无法在术前快速准确地进行分类,影响治疗方案的制定。
  2. USCNet通过Transformer融合CT图像和EHR数据,利用分割引导注意力机制,实现更精确的术前结石分类。
  3. 实验结果表明,USCNet在肾结石分类任务上显著优于现有方法,为临床提供了更有效的辅助诊断工具。

📝 摘要(中文)

肾结石是泌尿外科最常见的疾病之一,了解结石成分对于制定个性化治疗方案和预防复发至关重要。目前结石分析方法依赖术后标本,无法实现术前快速分类。为克服这一局限性,我们提出了一种新的方法,即尿路结石分割与分类网络(USCNet)。该方法通过整合计算机断层扫描(CT)图像和电子健康记录(EHR)中的临床数据,实现精确的结石术前分类。USCNet采用基于Transformer的多模态融合框架,包含CT-EHR注意力机制和分割引导的注意力模块,以实现准确分类。此外,引入动态损失函数来有效平衡分割和分类的双重目标。在内部肾结石数据集上的实验表明,USCNet在所有评估指标上均表现出色,其分类效果显著优于现有的主流方法。本研究为精确的肾结石术前分类提供了一种有前景的解决方案,具有显著的临床效益。源代码已公开。

🔬 方法详解

问题定义:论文旨在解决肾结石术前分类问题。现有方法依赖术后样本分析,无法在术前快速准确地确定结石成分,从而影响治疗方案的选择。痛点在于缺乏一种能够整合影像学数据和临床信息的术前快速分类方法。

核心思路:论文的核心思路是利用深度学习技术,特别是Transformer模型,将CT图像和EHR数据进行多模态融合,并引入分割引导的注意力机制,从而实现更精确的肾结石术前分类。通过分割任务辅助分类任务,提高分类的准确性和鲁棒性。

技术框架:USCNet的整体架构包含以下主要模块:1) CT图像编码器:提取CT图像的特征表示;2) EHR数据编码器:提取EHR数据的特征表示;3) CT-EHR注意力模块:利用Transformer结构,学习CT图像和EHR数据之间的关联性;4) 分割引导的注意力模块:利用分割结果引导分类任务,提高分类准确性;5) 分类器:基于融合后的特征进行结石分类;6) 分割模块:对CT图像中的结石区域进行分割。

关键创新:论文最重要的技术创新点在于:1) 提出了一种基于Transformer的多模态融合框架,能够有效整合CT图像和EHR数据;2) 引入了分割引导的注意力机制,利用分割结果辅助分类任务,提高分类准确性;3) 设计了一种动态损失函数,能够平衡分割和分类的双重目标。

关键设计:CT-EHR注意力模块采用Transformer编码器结构,通过自注意力机制学习模态间的依赖关系。分割引导注意力模块利用分割结果生成注意力权重,引导分类器关注结石区域的特征。动态损失函数通过调整分割损失和分类损失的权重,平衡两个任务的学习进度。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

USCNet在内部肾结石数据集上进行了实验,结果表明其在所有评估指标上均表现出色,分类效果显著优于现有的主流方法。具体性能数据和对比基线在论文中有详细展示。该研究为肾结石的精确术前分类提供了一种有前景的解决方案。

🎯 应用场景

该研究成果可应用于临床肾结石的术前诊断,辅助医生制定更精准的治疗方案,减少患者的痛苦和医疗费用。通过整合影像学数据和临床信息,USCNet有望成为一种高效、便捷的肾结石分类工具,并可推广到其他疾病的诊断和治疗中,具有广阔的应用前景。

📄 摘要(原文)

Kidney stone disease ranks among the most prevalent conditions in urology, and understanding the composition of these stones is essential for creating personalized treatment plans and preventing recurrence. Current methods for analyzing kidney stones depend on postoperative specimens, which prevents rapid classification before surgery. To overcome this limitation, we introduce a new approach called the Urinary Stone Segmentation and Classification Network (USCNet). This innovative method allows for precise preoperative classification of kidney stones by integrating Computed Tomography (CT) images with clinical data from Electronic Health Records (EHR). USCNet employs a Transformer-based multimodal fusion framework with CT-EHR attention and segmentation-guided attention modules for accurate classification. Moreover, a dynamic loss function is introduced to effectively balance the dual objectives of segmentation and classification. Experiments on an in-house kidney stone dataset show that USCNet demonstrates outstanding performance across all evaluation metrics, with its classification efficacy significantly surpassing existing mainstream methods. This study presents a promising solution for the precise preoperative classification of kidney stones, offering substantial clinical benefits. The source code has been made publicly available: https://github.com/ZhangSongqi0506/KidneyStone.