GenCellAgent: Generalizable, Training-Free Cellular Image Segmentation via Large Language Model Agents
作者: Xi Yu, Yang Yang, Qun Liu, Yonghua Du, Sean McSweeney, Yuewei Lin
分类: q-bio.QM, cs.AI, cs.CV, cs.MA
发布日期: 2025-10-14
备注: 43 pages
💡 一句话要点
GenCellAgent:基于大语言模型Agent的通用、免训练细胞图像分割
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 细胞图像分割 大语言模型 多Agent系统 免训练学习 视觉-语言模型
📋 核心要点
- 细胞图像分割面临异构模态、形态变异和标注数据不足的挑战,现有方法泛化性差。
- GenCellAgent利用大语言模型Agent,通过规划、执行和评估循环,协调专家分割器和视觉-语言模型。
- 实验表明,GenCellAgent在多个细胞分割任务上显著优于现有方法,并能分割新型细胞器。
📝 摘要(中文)
细胞图像分割是定量生物学的关键步骤,但由于异构模态、形态变异性和有限的标注而面临挑战。本文提出了GenCellAgent,一个免训练的多Agent框架,通过规划-执行-评估循环(选择工具→运行→质量检查)和长期记忆来协调专家分割器和通用视觉-语言模型。该系统能够:(1)自动将图像路由到最佳工具;(2)当成像条件与工具预期不同时,使用少量参考图像进行即时调整;(3)支持对现有模型未覆盖的细胞器进行文本引导分割;(4)将专家编辑提交到记忆中,实现自我进化和个性化工作流程。在四个细胞分割基准测试中,这种路由比最先进的基线平均提高了15.7%的准确率。在新数据集的内质网和线粒体分割上,GenCellAgent比专家模型平均提高了37.6%的IoU。它还可以通过迭代的文本引导细化来分割新的对象,例如高尔基体,并通过少量的人工校正进一步提高性能。总而言之,这些能力为无需重新训练即可实现鲁棒、适应性强的细胞图像分割提供了一条实用途径,同时减少了标注负担并匹配了用户偏好。
🔬 方法详解
问题定义:细胞图像分割旨在准确识别和分割细胞及其内部结构,如细胞核、细胞质和各种细胞器。现有方法通常依赖于特定模态或细胞类型的训练数据,泛化能力有限,难以适应新的成像条件或分割目标。此外,标注数据的获取成本高昂,限制了模型的训练规模和性能。
核心思路:GenCellAgent的核心思路是利用大语言模型(LLM)作为智能Agent,协调多个专家分割器和视觉-语言模型,实现免训练的细胞图像分割。通过规划-执行-评估循环,Agent能够根据图像特征选择合适的工具,并根据分割结果进行迭代优化。长期记忆机制则允许Agent学习专家编辑,实现自我进化和个性化工作流程。
技术框架:GenCellAgent包含以下主要模块:1) 规划器(Planner):基于LLM,根据输入图像的特征和分割目标,选择合适的分割工具(专家分割器或视觉-语言模型)。2) 执行器(Executor):执行规划器选择的分割工具,生成分割结果。3) 评估器(Evaluator):评估分割结果的质量,并根据评估结果调整分割参数或选择其他工具。4) 长期记忆(Long-term Memory):存储专家编辑和分割经验,用于指导未来的分割任务。整个流程通过迭代执行规划-执行-评估循环,不断优化分割结果。
关键创新:GenCellAgent的关键创新在于:1) 免训练分割:无需针对特定数据集进行训练,即可实现良好的分割性能。2) 多Agent协作:通过LLM协调多个专家分割器和视觉-语言模型,充分利用各种工具的优势。3) 长期记忆和自我进化:通过学习专家编辑,不断提升分割性能和适应能力。4) 文本引导分割:支持对现有模型未覆盖的细胞器进行文本引导分割。
关键设计:规划器使用预训练的LLM,通过prompt engineering使其具备选择工具和调整参数的能力。评估器使用多种指标(如IoU、Dice系数)评估分割结果的质量。长期记忆采用知识图谱的形式,存储专家编辑和分割经验。视觉-语言模型使用CLIP等预训练模型,通过文本描述引导分割。
🖼️ 关键图片
📊 实验亮点
GenCellAgent在四个细胞分割基准测试中,比最先进的基线平均提高了15.7%的准确率。在新数据集的内质网和线粒体分割上,GenCellAgent比专家模型平均提高了37.6%的IoU。此外,它还可以通过迭代的文本引导细化来分割新的对象,例如高尔基体,并通过少量的人工校正进一步提高性能。
🎯 应用场景
GenCellAgent可广泛应用于生物医学研究、药物发现和临床诊断等领域。它可以帮助研究人员快速准确地分割细胞图像,从而进行细胞计数、形态分析和功能研究。在药物发现中,它可以用于高通量筛选,评估药物对细胞的影响。在临床诊断中,它可以用于辅助诊断疾病,如癌症和感染。
📄 摘要(原文)
Cellular image segmentation is essential for quantitative biology yet remains difficult due to heterogeneous modalities, morphological variability, and limited annotations. We present GenCellAgent, a training-free multi-agent framework that orchestrates specialist segmenters and generalist vision-language models via a planner-executor-evaluator loop (choose tool $\rightarrow$ run $\rightarrow$ quality-check) with long-term memory. The system (i) automatically routes images to the best tool, (ii) adapts on the fly using a few reference images when imaging conditions differ from what a tool expects, (iii) supports text-guided segmentation of organelles not covered by existing models, and (iv) commits expert edits to memory, enabling self-evolution and personalized workflows. Across four cell-segmentation benchmarks, this routing yields a 15.7\% mean accuracy gain over state-of-the-art baselines. On endoplasmic reticulum and mitochondria from new datasets, GenCellAgent improves average IoU by 37.6\% over specialist models. It also segments novel objects such as the Golgi apparatus via iterative text-guided refinement, with light human correction further boosting performance. Together, these capabilities provide a practical path to robust, adaptable cellular image segmentation without retraining, while reducing annotation burden and matching user preferences.