Structure-aware World Model for Probe Guidance via Large-scale Self-supervised Pre-train
作者: Haojun Jiang, Meng Li, Zhenguo Sun, Ning Jia, Yu Sun, Shaqi Luo, Shiji Song, Gao Huang
分类: cs.CV, cs.AI
发布日期: 2024-06-28 (更新: 2024-07-19)
备注: Accepted by MICCAI 2024 ASMUS Workshop
💡 一句话要点
提出结构感知世界模型,通过大规模自监督预训练提升超声探头引导精度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 超声心动图 探头引导 自监督学习 预训练 世界模型
📋 核心要点
- 超声心动图采集面临心脏结构复杂、二维平面理解和三维空间关系理解的挑战。
- 论文提出结构感知的世界模型,通过自监督学习预测2D平面结构和3D空间姿态变换后的平面。
- 实验证明,预训练模型在探头引导任务中显著降低了引导误差,提升了扫描精度。
📝 摘要(中文)
本文针对超声心动图采集中的挑战,提出了一种大规模自监督预训练方法,旨在获取心脏结构感知的世界模型。核心创新在于构建了一个自监督任务,该任务通过预测二维平面上被掩盖的结构以及基于三维空间中姿态变换想象另一个平面来进行结构推理。为了支持大规模预训练,我们收集了超过136万张来自十个标准视图的超声心动图及其三维空间姿态。在下游探头引导任务中,实验表明,我们的预训练模型在包含来自74次常规临床扫描的29万个样本的测试集上,始终如一地降低了十个最常见标准视图的引导误差,表明结构感知预训练有益于扫描。
🔬 方法详解
问题定义:超声心动图的探头引导任务需要精确定位和识别心脏的复杂结构,现有方法难以充分利用图像中的结构信息和三维空间关系,导致引导误差较大。缺乏大规模标注数据也是一个重要瓶颈。
核心思路:论文的核心思路是通过大规模自监督预训练,让模型学习到心脏的结构信息和三维空间关系,从而提升探头引导的精度。通过构建自监督任务,避免了对大量标注数据的依赖。
技术框架:整体框架包含两个主要阶段:预训练阶段和下游任务微调阶段。在预训练阶段,模型学习预测2D平面上被掩盖的结构,并根据3D空间姿态变换想象另一个平面。在下游任务微调阶段,使用预训练好的模型进行探头引导任务的训练。
关键创新:最重要的技术创新点在于提出了结构感知的自监督预训练任务,该任务能够有效地学习到心脏的结构信息和三维空间关系。与现有方法相比,该方法不需要大量标注数据,并且能够更好地利用图像中的结构信息。
关键设计:自监督任务包含两个部分:2D结构预测和3D姿态变换。2D结构预测通过掩码图像建模(Masked Image Modeling)实现,模型需要预测被掩盖的区域的结构。3D姿态变换通过预测目标平面在给定姿态变换下的图像来实现。损失函数包括2D结构预测损失和3D姿态变换损失。具体的网络结构未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该预训练模型在探头引导任务中显著降低了引导误差。在包含来自74次常规临床扫描的29万个样本的测试集上,该模型在十个最常见标准视图上始终如一地降低了引导误差,证明了结构感知预训练的有效性。具体的性能提升数据未知。
🎯 应用场景
该研究成果可应用于超声心动图的自动探头引导系统,辅助医生进行更准确、高效的心脏超声检查。通过降低引导误差,可以减少检查时间和提高诊断准确率,具有重要的临床应用价值。未来,该方法还可以推广到其他医学影像领域,例如腹部超声、血管超声等。
📄 摘要(原文)
The complex structure of the heart leads to significant challenges in echocardiography, especially in acquisition cardiac ultrasound images. Successful echocardiography requires a thorough understanding of the structures on the two-dimensional plane and the spatial relationships between planes in three-dimensional space. In this paper, we innovatively propose a large-scale self-supervised pre-training method to acquire a cardiac structure-aware world model. The core innovation lies in constructing a self-supervised task that requires structural inference by predicting masked structures on a 2D plane and imagining another plane based on pose transformation in 3D space. To support large-scale pre-training, we collected over 1.36 million echocardiograms from ten standard views, along with their 3D spatial poses. In the downstream probe guidance task, we demonstrate that our pre-trained model consistently reduces guidance errors across the ten most common standard views on the test set with 0.29 million samples from 74 routine clinical scans, indicating that structure-aware pre-training benefits the scanning.