BiomedParse: a biomedical foundation model for image parsing of everything everywhere all at once

📄 arXiv: 2405.12971v3 📥 PDF

作者: Theodore Zhao, Yu Gu, Jianwei Yang, Naoto Usuyama, Ho Hin Lee, Tristan Naumann, Jianfeng Gao, Angela Crabtree, Jacob Abel, Christine Moung-Wen, Brian Piening, Carlo Bifulco, Mu Wei, Hoifung Poon, Sheng Wang

分类: cs.CV

发布日期: 2024-05-21 (更新: 2024-06-04)

备注: Project page: https://aka.ms/biomedparse-project . Nat Methods (2024)

期刊: Nat Methods 22, 166-176 (2025)

DOI: 10.1038/s41592-024-02499-w


💡 一句话要点

BiomedParse:用于生物医学图像解析的通用基础模型,一次性完成所有任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物医学图像分析 图像解析 分割 检测 识别 基础模型 多模态学习

📋 核心要点

  1. 现有的生物医学图像分析方法通常针对特定任务和模态,缺乏通用性和整体性,限制了生物医学发现的效率。
  2. BiomedParse通过联合学习分割、检测和识别任务,并利用GPT-4整合文本信息,构建了一个通用的生物医学图像解析基础模型。
  3. 实验结果表明,BiomedParse在多种生物医学图像模态和任务上均取得了领先的性能,证明了其广泛的适用性和有效性。

📝 摘要(中文)

生物医学图像分析是细胞生物学、病理学、放射学和许多其他生物医学领域发现的基础。整体图像分析包括分割、检测和识别等相互依赖的子任务。本文提出了BiomedParse,一个用于图像解析的生物医学基础模型,可以联合进行分割、检测和识别,涵盖9种成像方式的82种对象类型。通过联合学习,可以提高单个任务的准确性,并实现新的应用,例如通过文本提示分割图像中的所有相关对象,而无需用户费力地指定每个对象的边界框。利用现成的自然语言标签或伴随数据集的描述,并使用GPT-4来协调嘈杂、非结构化的文本信息与已建立的生物医学对象本体。创建了一个包含超过六百万个图像、分割掩码和文本描述三元组的大型数据集。在图像分割方面,BiomedParse具有广泛的适用性,在9种成像方式的102,855个测试图像-掩码-标签三元组上优于最先进的方法。在旨在定位特定感兴趣对象的目标检测方面,BiomedParse再次获得了最先进的性能,尤其是在不规则形状的对象上。在旨在识别给定图像中所有对象及其语义类型的对象识别方面,BiomedParse可以同时分割和标记图像中的所有生物医学对象。总而言之,BiomedParse是一种一体化工具,通过联合解决所有主要生物医学图像模式的分割、检测和识别问题,为高效、准确的基于图像的生物医学发现铺平了道路。

🔬 方法详解

问题定义:生物医学图像分析涉及分割、检测和识别等多个任务,现有方法通常针对特定任务和数据模态,缺乏通用性,且需要大量人工标注。此外,如何有效利用与图像相关的文本描述信息也是一个挑战。

核心思路:BiomedParse的核心思路是构建一个通用的生物医学图像解析基础模型,通过联合学习分割、检测和识别任务,实现对多种生物医学图像模态的统一处理。同时,利用GPT-4将非结构化的文本描述信息与生物医学本体进行对齐,从而增强模型的语义理解能力。

技术框架:BiomedParse的技术框架主要包括以下几个部分:1) 数据收集与预处理:收集包含图像、分割掩码和文本描述的大规模生物医学图像数据集;2) 文本信息对齐:使用GPT-4将文本描述信息与生物医学本体进行对齐,生成结构化的语义标签;3) 模型训练:采用联合学习的方式,同时训练分割、检测和识别三个任务,共享底层特征提取网络;4) 模型推理:对于给定的生物医学图像,模型可以同时输出分割结果、检测到的对象以及它们的语义标签。

关键创新:BiomedParse的关键创新在于:1) 提出了一个通用的生物医学图像解析基础模型,可以同时处理分割、检测和识别任务;2) 利用GPT-4将非结构化的文本描述信息与生物医学本体进行对齐,从而增强模型的语义理解能力;3) 构建了一个包含超过六百万个图像、分割掩码和文本描述三元组的大型数据集。

关键设计:BiomedParse的具体网络结构未知,但可以推测其采用了Transformer或卷积神经网络作为底层特征提取器。损失函数方面,可能采用了多任务学习常用的加权损失函数,对分割、检测和识别三个任务的损失进行加权求和。具体的参数设置和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BiomedParse在图像分割、目标检测和对象识别三个任务上均取得了state-of-the-art的性能。在包含9种成像方式的102,855个测试图像-掩码-标签三元组的图像分割任务上,BiomedParse优于现有方法。在目标检测任务上,BiomedParse在不规则形状的对象上表现尤为出色。在对象识别任务上,BiomedParse可以同时分割和标记图像中的所有生物医学对象。

🎯 应用场景

BiomedParse具有广泛的应用前景,可以应用于细胞生物学、病理学、放射学等多个生物医学领域。它可以帮助研究人员更高效地分析生物医学图像,加速疾病诊断和治疗的研发过程。例如,可以用于自动识别病理切片中的癌细胞,辅助医生进行诊断,或者用于分析医学影像,检测病灶并进行分割。

📄 摘要(原文)

Biomedical image analysis is fundamental for biomedical discovery in cell biology, pathology, radiology, and many other biomedical domains. Holistic image analysis comprises interdependent subtasks such as segmentation, detection, and recognition of relevant objects. Here, we propose BiomedParse, a biomedical foundation model for imaging parsing that can jointly conduct segmentation, detection, and recognition for 82 object types across 9 imaging modalities. Through joint learning, we can improve accuracy for individual tasks and enable novel applications such as segmenting all relevant objects in an image through a text prompt, rather than requiring users to laboriously specify the bounding box for each object. We leveraged readily available natural-language labels or descriptions accompanying those datasets and use GPT-4 to harmonize the noisy, unstructured text information with established biomedical object ontologies. We created a large dataset comprising over six million triples of image, segmentation mask, and textual description. On image segmentation, we showed that BiomedParse is broadly applicable, outperforming state-of-the-art methods on 102,855 test image-mask-label triples across 9 imaging modalities (everything). On object detection, which aims to locate a specific object of interest, BiomedParse again attained state-of-the-art performance, especially on objects with irregular shapes (everywhere). On object recognition, which aims to identify all objects in a given image along with their semantic types, we showed that BiomedParse can simultaneously segment and label all biomedical objects in an image (all at once). In summary, BiomedParse is an all-in-one tool for biomedical image analysis by jointly solving segmentation, detection, and recognition for all major biomedical image modalities, paving the path for efficient and accurate image-based biomedical discovery.