Reducing Annotation Burden: Exploiting Image Knowledge for Few-Shot Medical Video Object Segmentation via Spatiotemporal Consistency Relearning
作者: Zixuan Zheng, Yilei Shi, Chunlei Li, Jingliang Hu, Xiao Xiang Zhu, Lichao Mou
分类: cs.CV
发布日期: 2025-03-19
备注: MICCAI 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出时空一致性重学习方法,利用图像知识解决医学视频少样本分割问题
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 少样本学习 视频目标分割 医学图像分析 时空一致性 重学习
📋 核心要点
- 现有少样本视频分割方法需要大量密集帧标注,这在医学领域难以满足,标注成本高昂。
- 提出一种两阶段框架,首先利用图像数据训练少样本分割模型,然后通过时空一致性重学习提升视频分割性能。
- 实验表明,该方法在医学视频少样本分割任务上优于现有方法,有效降低了标注负担。
📝 摘要(中文)
本文旨在减少视频目标分割的标注负担,特别是在医学领域数据稀缺的情况下。现有方法通常需要大量的密集帧标注进行训练,这在医学领域难以实现。因此,本文研究了一种极低数据机制,仅利用少量视频帧的标注,并结合已标注的图像数据,以最大限度地减少昂贵的视频标注成本。具体而言,本文提出了一个两阶段框架。首先,使用已标注的图像学习一个少样本分割模型。然后,为了在没有完全监督的情况下提高性能,在医学视频上引入时空一致性重学习方法,以增强连续帧之间的一致性。同时,在特征和预测层面,对图像模型和重学习模型施加约束。实验结果表明,该方法优于目前最先进的少样本分割方法。该模型弥合了大量已标注医学图像和稀缺、稀疏标注医学视频之间的差距,从而在这种低数据机制下实现了强大的视频分割性能。
🔬 方法详解
问题定义:现有的少样本视频目标分割方法依赖于大量的视频帧标注,这在医学领域中是一个显著的瓶颈,因为医学视频的标注成本非常高昂,且专家标注资源有限。因此,如何在极少量视频帧标注的情况下,利用已有的医学图像知识,实现高性能的视频目标分割,是本文要解决的核心问题。
核心思路:本文的核心思路是利用已标注的医学图像数据来预训练一个少样本分割模型,然后通过在少量标注的医学视频上进行时空一致性重学习,来提升模型在视频数据上的分割性能。这种方法旨在弥合图像数据和视频数据之间的差距,从而在极低标注成本下实现有效的视频分割。
技术框架:该方法采用两阶段框架。第一阶段,利用大量的已标注医学图像数据训练一个少样本分割模型。第二阶段,在少量标注的医学视频上进行时空一致性重学习。在重学习阶段,模型通过强制执行连续帧之间分割结果的时空一致性来学习视频中的目标运动信息。同时,在特征层面和预测层面,对图像模型和重学习模型进行约束,以保持模型的一致性。
关键创新:该方法最重要的创新点在于提出了时空一致性重学习策略,该策略能够在极少量视频帧标注的情况下,有效地利用视频中的时序信息,从而提升少样本视频分割的性能。此外,通过在特征和预测层面约束图像模型和重学习模型,进一步提高了模型的泛化能力。
关键设计:在时空一致性重学习阶段,使用了多种损失函数来保证时空一致性,例如,可以使用像素级别的交叉熵损失来衡量分割结果的准确性,并使用一致性损失来约束连续帧之间的分割结果。具体的网络结构和参数设置在论文中进行了详细描述,但具体数值未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在医学视频少样本分割任务上取得了显著的性能提升,优于现有的少样本分割方法。具体的性能数据和对比基线在论文中进行了详细展示,但具体数值未知。该方法有效地降低了对视频标注的需求,为医学视频分析提供了一种新的解决方案。
🎯 应用场景
该研究成果可应用于多种医学视频分析任务,例如手术视频中的器械跟踪、内窥镜视频中的病灶分割等。通过减少对视频标注的依赖,可以降低医学图像分析的成本,加速相关技术的推广和应用,最终提升医疗诊断和治疗的效率。
📄 摘要(原文)
Few-shot video object segmentation aims to reduce annotation costs; however, existing methods still require abundant dense frame annotations for training, which are scarce in the medical domain. We investigate an extremely low-data regime that utilizes annotations from only a few video frames and leverages existing labeled images to minimize costly video annotations. Specifically, we propose a two-phase framework. First, we learn a few-shot segmentation model using labeled images. Subsequently, to improve performance without full supervision, we introduce a spatiotemporal consistency relearning approach on medical videos that enforces consistency between consecutive frames. Constraints are also enforced between the image model and relearning model at both feature and prediction levels. Experiments demonstrate the superiority of our approach over state-of-the-art few-shot segmentation methods. Our model bridges the gap between abundant annotated medical images and scarce, sparsely labeled medical videos to achieve strong video segmentation performance in this low data regime. Code is available at https://github.com/MedAITech/RAB.