Ultrasound Vision-Language Alignment via Contrastive Learning
作者: Zhuoyang Lyu, Yiyang Zhang, Tongxin Wang, Ruirui Lan
分类: cs.CV, cs.LG
发布日期: 2026-05-04
💡 一句话要点
提出EchoCare-CLIP,通过对比学习实现超声图像与临床文本的对齐。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 超声影像 视觉-语言对齐 对比学习 CLIP 零样本学习
📋 核心要点
- 现有超声影像基础模型缺乏跨模态能力,限制了其在标注数据稀缺场景下的迁移应用。
- 提出EchoCare-CLIP框架,利用对比学习将超声图像与临床文本对齐到共享嵌入空间。
- 实验表明,该方法在跨模态对齐方面优于基线,并在零样本分类任务中取得了良好效果。
📝 摘要(中文)
超声影像基础模型在结构化预测任务中表现出色,但仍局限于视觉模态,限制了其在缺乏特定任务标注的新任务上的零样本和少样本迁移能力。本文提出了EchoCare-CLIP,一个CLIP风格的双编码器对比学习框架,旨在将超声图像与临床文本对齐到共享的嵌入空间。我们构建了一个包含乳腺、肝脏、肺和甲状腺的多器官语料库,包含超过16K的图像-文本对,其中超过78%的文本描述来自专家标注的报告,其余部分通过三层模板和LLM生成流程补充。我们评估了两种文本编码器(CLIP、BioClinicalBERT)和两种文本生成策略(模板、LLM)的模型配置,并与OpenAI CLIP和BiomedCLIP基线进行比较。结果表明,我们训练的模型在跨模态对齐方面始终优于基线,最佳配置的配对对齐得分达到0.682。然而,更强的对齐并不保证更好的下游性能:基于CLIP的变体通过部分微调在外部保留数据集上实现了最强的零样本分类(BUSI上为0.709;AULI上为0.626),而完全端到端微调由于过拟合而降低了迁移能力。在线性探测和少样本自适应方面,模型排名取决于数据集,反映了领域自适应和表征泛化之间的权衡。此外,模板生成的文本描述与LLM生成的文本描述相匹配或优于后者,表明词汇多样性并不是文本描述质量的代表。总而言之,我们的结果表明,仅从公共数据即可实现超声影像-语言对齐,但稳健的临床迁移需要仔细平衡领域自适应、编码器容量和文本描述监督质量。
🔬 方法详解
问题定义:现有超声影像模型主要依赖视觉信息,缺乏与临床文本的关联,导致无法有效利用文本信息进行辅助诊断和跨任务迁移。现有方法难以在标注数据稀缺的情况下,实现超声影像的零样本或少样本学习。
核心思路:借鉴CLIP的思想,通过对比学习的方式,将超声图像和临床文本映射到同一个嵌入空间。通过最大化图像和对应文本嵌入向量的相似度,最小化图像和非对应文本嵌入向量的相似度,从而实现跨模态信息的对齐。这样设计的目的是为了让模型能够理解图像和文本之间的语义关系,从而实现零样本或少样本的跨任务迁移。
技术框架:EchoCare-CLIP框架包含两个主要的编码器:图像编码器和文本编码器。图像编码器负责将超声图像转换为图像嵌入向量,文本编码器负责将临床文本转换为文本嵌入向量。框架使用对比学习损失函数来训练这两个编码器,使得图像和对应的文本在嵌入空间中尽可能接近。框架还包含一个文本生成模块,用于生成补充的文本描述,以扩充训练数据集。
关键创新:该论文的关键创新在于将CLIP框架应用于超声影像领域,并针对该领域的特点进行了优化。具体来说,论文构建了一个包含多器官超声影像和临床文本的大规模数据集,并探索了不同的文本编码器和文本生成策略。此外,论文还研究了不同微调策略对模型性能的影响,发现部分微调可以有效提高模型的零样本分类性能。
关键设计:论文使用了两种文本编码器:CLIP和BioClinicalBERT。CLIP是一个通用的视觉-语言模型,而BioClinicalBERT是一个专门针对生物医学文本进行预训练的模型。论文还使用了两种文本生成策略:模板生成和LLM生成。模板生成是基于预定义的模板来生成文本描述,而LLM生成是使用大型语言模型来生成文本描述。论文使用了InfoNCE损失函数作为对比学习的损失函数。在微调方面,论文探索了完全端到端微调和部分微调两种策略。部分微调只更新图像编码器和文本编码器的部分参数,而完全端到端微调则更新所有参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EchoCare-CLIP在跨模态对齐方面优于OpenAI CLIP和BiomedCLIP基线,最佳配置的配对对齐得分达到0.682。在零样本分类任务中,基于CLIP的变体通过部分微调在BUSI数据集上实现了0.709的准确率,在AULI数据集上实现了0.626的准确率。模板生成的文本描述与LLM生成的文本描述性能相当,表明词汇多样性并非文本描述质量的决定因素。
🎯 应用场景
该研究成果可应用于多种临床场景,例如辅助诊断、疾病筛查、医学影像报告生成等。通过将超声影像与临床文本对齐,可以提高诊断的准确性和效率,减少对人工标注的依赖。未来,该技术有望应用于远程医疗、智能影像分析等领域,为医疗健康行业带来更广泛的价值。
📄 摘要(原文)
Ultrasound foundation models have achieved strong performance on structured prediction tasks but remain exclusively vision-based, limiting zero-shot and few-shot transfer to novel tasks where task-specific annotation is scarce. We address this gap with EchoCare-CLIP, a CLIP-style dual-encoder contrastive framework that aligns ultrasound images with clinical text in a shared embedding space. We curate a multi-organ corpus of over 16K image-text pairs spanning breast, liver, lung, and thyroid, with over 78% of captions derived from expert-annotated reports, and complement the remainder with a three-tier template-based and LLM-based caption generation pipeline. We evaluate model configurations spanning two text encoder families (CLIP, BioClinicalBERT) and two caption strategies (template-based, LLM-generated) against OpenAI CLIP and BiomedCLIP baselines. Our trained models consistently improve cross-modal alignment over baselines, with the best configuration achieving a paired alignment score of 0.682. However, stronger alignment does not guarantee better downstream performance: CLIP-based variants with partial fine-tuning achieve the strongest zero-shot classification on external held-out datasets (0.709 on BUSI; 0.626 on AULI), while full end-to-end fine-tuning degrades transfer due to overfitting. On linear probing and few-shot adaptation, model rankings are dataset-dependent, reflecting a trade-off between domain adaptation and representational generalizability. We further show that template-based captions match or outperform LLM-generated captions, suggesting lexical diversity is not a proxy for caption quality. Taken together, our results demonstrate that ultrasound vision-language alignment is achievable from public data alone, but robust clinical transfer requires careful balancing of domain adaptation, encoder capacity, and caption supervision quality.