Adapting Vision Foundation Models for Real-time Ultrasound Image Segmentation
作者: Xiaoran Zhang, Eric Z. Chen, Lin Zhao, Xiao Chen, Yikang Liu, Boris Maihe, James S. Duncan, Terrence Chen, Shanhui Sun
分类: cs.CV
发布日期: 2025-03-31
💡 一句话要点
提出一种自适应视觉基础模型,用于实时超声图像分割。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 超声图像分割 视觉基础模型 实时分割 有限监督学习 自适应学习
📋 核心要点
- 现有超声图像分割方法泛化性差,依赖大量标注,实时性方法精度不足。
- 利用视觉基础模型Hiera提取多尺度特征,并融合DINOv2特征增强表达能力,实现精确分割。
- 实验表明,该方法在多个数据集上优于现有方法,在有限监督下提升显著,并达到实时性要求。
📝 摘要(中文)
本文提出了一种新颖的方法,用于调整分层视觉基础模型以实现实时超声图像分割。现有的超声分割方法通常难以适应新任务,依赖于昂贵的手动标注,而实时方法通常无法达到最先进的性能。为了克服这些限制,我们引入了一个自适应框架,该框架利用视觉基础模型Hiera提取多尺度特征,并与DINOv2表示交错以增强视觉表达能力。然后,对这些丰富的特征进行解码,以产生精确而鲁棒的分割。我们在六个公共数据集和一个内部数据集上进行了广泛的评估,涵盖了心脏和甲状腺超声分割。实验表明,我们的方法在多个数据集上优于最先进的方法,并且在有限的监督下表现出色,在1%和10%的数据设置中,平均超过nnUNet 20%以上。我们的方法在单个GPU上使用TensorRT实现了约77 FPS的推理速度,从而实现了实时临床应用。
🔬 方法详解
问题定义:现有的超声图像分割方法面临着两个主要问题:一是缺乏适应性,难以泛化到新的任务和数据集,需要大量的人工标注;二是实时性不足,虽然有一些实时方法,但其分割精度往往低于state-of-the-art的方法。因此,如何在保证分割精度的前提下,实现超声图像的实时分割,是一个亟待解决的问题。
核心思路:本文的核心思路是利用视觉基础模型(Vision Foundation Model)强大的特征提取能力,并对其进行自适应调整,以适应超声图像分割任务。具体来说,作者选择Hiera作为基础模型,因为它具有分层特征提取的优势,能够捕捉不同尺度的信息。同时,为了增强视觉表达能力,作者将Hiera提取的特征与DINOv2的特征进行融合。
技术框架:整体框架主要包括三个部分:特征提取、特征融合和分割解码。首先,使用Hiera提取多尺度特征,并使用DINOv2提取全局特征。然后,将这两种特征进行融合,以增强视觉表达能力。最后,使用一个分割解码器将融合后的特征映射到像素级别的分割结果。
关键创新:该方法最重要的创新点在于将视觉基础模型应用于超声图像分割,并提出了一种自适应的特征融合策略。与传统的超声图像分割方法相比,该方法能够更好地利用预训练模型的知识,从而在有限的标注数据下取得更好的性能。此外,该方法还通过优化网络结构和使用TensorRT加速,实现了实时推理。
关键设计:在特征融合方面,作者采用了一种交错融合的策略,将Hiera提取的多尺度特征与DINOv2的特征进行逐层融合。在分割解码器方面,作者使用了一个轻量级的卷积神经网络,以保证实时性。此外,作者还使用了Dice Loss和Cross-Entropy Loss的组合作为损失函数,以提高分割精度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个公开数据集和内部数据集上均取得了优于state-of-the-art的性能。在1%和10%的有限数据设置下,该方法平均超过nnUNet 20%以上。此外,该方法在单个GPU上使用TensorRT实现了约77 FPS的推理速度,满足实时应用的需求。
🎯 应用场景
该研究成果可广泛应用于医疗超声影像领域,例如心脏超声、甲状腺超声等,辅助医生进行疾病诊断和治疗方案制定。实时分割能力有助于术中导航和机器人辅助手术,提高手术精度和效率。未来,该技术有望扩展到其他医学影像模态,推动医学影像分析的智能化发展。
📄 摘要(原文)
We propose a novel approach that adapts hierarchical vision foundation models for real-time ultrasound image segmentation. Existing ultrasound segmentation methods often struggle with adaptability to new tasks, relying on costly manual annotations, while real-time approaches generally fail to match state-of-the-art performance. To overcome these limitations, we introduce an adaptive framework that leverages the vision foundation model Hiera to extract multi-scale features, interleaved with DINOv2 representations to enhance visual expressiveness. These enriched features are then decoded to produce precise and robust segmentation. We conduct extensive evaluations on six public datasets and one in-house dataset, covering both cardiac and thyroid ultrasound segmentation. Experiments show that our approach outperforms state-of-the-art methods across multiple datasets and excels with limited supervision, surpassing nnUNet by over 20\% on average in the 1\% and 10\% data settings. Our method achieves $\sim$77 FPS inference speed with TensorRT on a single GPU, enabling real-time clinical applications.