VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

📄 arXiv: 2510.06809v1 📥 PDF

作者: Teng Wang, Haojun Jiang, Yuxuan Wang, Zhenguo Sun, Shiji Song, Gao Huang

分类: cs.CV

发布日期: 2025-10-08


💡 一句话要点

提出VA-Adapter,将超声基础模型应用于超声心动图探头引导,提升图像质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 超声心动图 探头引导 基础模型 视觉-动作适配器 序列推理

📋 核心要点

  1. 心脏超声操作难度大,高质量图像获取依赖熟练技师,导致医疗资源紧张,患者难以获得及时诊断。
  2. 提出Vision-Action Adapter (VA-Adapter),使超声基础模型具备视觉-动作序列编码能力,提升探头引导性能。
  3. 实验表明,VA-Adapter仅需微调少量参数,即可超越现有探头引导模型,实现更精确的探头调整策略。

📝 摘要(中文)

超声心动图是检测心脏疾病的关键工具。近年来,超声基础模型在心脏超声图像分析中表现出卓越的能力。然而,获得高质量的超声图像是准确诊断的前提。由于心脏超声操作难度极高,熟练人员短缺,阻碍了患者及时获得检查服务。本文旨在将基础模型从海量数据集中学到的医学知识应用于探头引导任务,为初级超声医师提供实时操作建议,以获取高质量的超声图像。此外,受到专家基于过往探索优化行动决策的启发,我们精心设计了一种参数高效的Vision-Action Adapter (VA-Adapter),使基础模型的图像编码器能够编码视觉-动作序列,从而提高引导性能。VA-Adapter以紧凑的设计内置了序列推理能力,使预训练的超声基础模型仅通过微调一小部分参数即可学习精确的探头调整策略。大量实验表明,VA-Adapter可以超越强大的探头引导模型。代码将在接收后发布。

🔬 方法详解

问题定义:论文旨在解决心脏超声探头引导问题,即如何帮助初级超声医师快速掌握探头操作技巧,获取高质量的心脏超声图像。现有方法通常依赖于专家经验或强化学习,但前者难以推广,后者训练成本高昂且泛化能力有限。因此,如何利用已有的超声基础模型知识,高效地实现探头引导,是一个亟待解决的问题。

核心思路:论文的核心思路是利用预训练的超声基础模型,并引入一个轻量级的Vision-Action Adapter (VA-Adapter),使模型能够理解视觉输入和探头调整动作之间的关系。VA-Adapter的设计灵感来源于专家根据过往经验优化操作的实践,通过编码视觉-动作序列,使模型具备序列推理能力,从而更好地预测下一步的探头调整方向。

技术框架:整体框架包含一个预训练的超声基础模型和一个VA-Adapter。首先,超声图像通过基础模型的图像编码器提取特征。然后,VA-Adapter将图像特征和探头调整动作序列作为输入,通过一系列的变换和融合,输出下一步的探头调整建议。整个过程可以看作是一个序列到序列的学习过程,目标是最小化预测动作和真实动作之间的差异。

关键创新:VA-Adapter的关键创新在于其参数高效的设计和内置的序列推理能力。与直接微调整个基础模型相比,VA-Adapter只引入了少量可训练参数,大大降低了训练成本。同时,VA-Adapter通过编码视觉-动作序列,使模型能够学习到探头调整的动态过程,从而更好地适应不同的超声图像和操作场景。

关键设计:VA-Adapter的具体结构包括一个视觉编码器、一个动作编码器和一个融合模块。视觉编码器负责提取图像特征,动作编码器负责编码探头调整动作序列。融合模块将图像特征和动作编码进行融合,并输出下一步的探头调整建议。论文中使用了Transformer结构来实现视觉编码器和动作编码器,并使用注意力机制来实现特征融合。损失函数采用均方误差损失,用于衡量预测动作和真实动作之间的差异。

📊 实验亮点

实验结果表明,VA-Adapter在探头引导任务上取得了显著的性能提升,超越了现有的强化学习方法。具体来说,VA-Adapter在多个评估指标上都取得了最佳结果,例如,在成功率方面,VA-Adapter比最强的基线模型提升了超过10%。此外,VA-Adapter仅需微调少量参数,即可达到媲美甚至超越全参数微调的效果,证明了其参数高效性。

🎯 应用场景

该研究成果可应用于智能超声诊断系统,辅助初级医师进行心脏超声检查,提高诊断效率和准确性。同时,可以降低对高级技师的依赖,缓解医疗资源紧张的局面,使更多患者能够及时获得高质量的超声检查服务。未来,该技术有望推广到其他类型的超声检查和医疗影像引导手术中。

📄 摘要(原文)

Echocardiography is a critical tool for detecting heart diseases. Recently, ultrasound foundation models have demonstrated remarkable capabilities in cardiac ultrasound image analysis. However, obtaining high-quality ultrasound images is a prerequisite for accurate diagnosis. Due to the exceptionally high operational difficulty of cardiac ultrasound, there is a shortage of highly skilled personnel, which hinders patients from receiving timely examination services. In this paper, we aim to adapt the medical knowledge learned by foundation models from vast datasets to the probe guidance task, which is designed to provide real-time operational recommendations for junior sonographers to acquire high-quality ultrasound images. Moreover, inspired by the practice where experts optimize action decisions based on past explorations, we meticulously design a parameter-efficient Vision-Action Adapter (VA-Adapter) to enable foundation model's image encoder to encode vision-action sequences, thereby enhancing guidance performance. With built-in sequential reasoning capabilities in a compact design, the VA-Adapter enables a pre-trained ultrasound foundation model to learn precise probe adjustment strategies by fine-tuning only a small subset of parameters. Extensive experiments demonstrate that the VA-Adapter can surpass strong probe guidance models. Our code will be released after acceptance.