GenCellAgent: Generalizable, Training-Free Cellular Image Segmentation via Large Language Model Agents

作者: Xi Yu, Yang Yang, Qun Liu, Yonghua Du, Sean McSweeney, Yuewei Lin

分类: q-bio.QM, cs.AI, cs.CV, cs.MA

发布日期: 2025-10-14

备注: 43 pages

💡 一句话要点

GenCellAgent：基于大语言模型Agent的通用、免训练细胞图像分割

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 细胞图像分割 大语言模型 多Agent系统 免训练学习 视觉-语言模型

📋 核心要点

细胞图像分割面临异构模态、形态变异和标注数据不足的挑战，现有方法泛化性差。
GenCellAgent利用大语言模型Agent，通过规划、执行和评估循环，协调专家分割器和视觉-语言模型。
实验表明，GenCellAgent在多个细胞分割任务上显著优于现有方法，并能分割新型细胞器。

📝 摘要（中文）

细胞图像分割是定量生物学的关键步骤，但由于异构模态、形态变异性和有限的标注而面临挑战。本文提出了GenCellAgent，一个免训练的多Agent框架，通过规划-执行-评估循环（选择工具→运行→质量检查）和长期记忆来协调专家分割器和通用视觉-语言模型。该系统能够：（1）自动将图像路由到最佳工具；（2）当成像条件与工具预期不同时，使用少量参考图像进行即时调整；（3）支持对现有模型未覆盖的细胞器进行文本引导分割；（4）将专家编辑提交到记忆中，实现自我进化和个性化工作流程。在四个细胞分割基准测试中，这种路由比最先进的基线平均提高了15.7%的准确率。在新数据集的内质网和线粒体分割上，GenCellAgent比专家模型平均提高了37.6%的IoU。它还可以通过迭代的文本引导细化来分割新的对象，例如高尔基体，并通过少量的人工校正进一步提高性能。总而言之，这些能力为无需重新训练即可实现鲁棒、适应性强的细胞图像分割提供了一条实用途径，同时减少了标注负担并匹配了用户偏好。

🔬 方法详解

问题定义：细胞图像分割旨在准确识别和分割细胞及其内部结构，如细胞核、细胞质和各种细胞器。现有方法通常依赖于特定模态或细胞类型的训练数据，泛化能力有限，难以适应新的成像条件或分割目标。此外，标注数据的获取成本高昂，限制了模型的训练规模和性能。

核心思路：GenCellAgent的核心思路是利用大语言模型（LLM）作为智能Agent，协调多个专家分割器和视觉-语言模型，实现免训练的细胞图像分割。通过规划-执行-评估循环，Agent能够根据图像特征选择合适的工具，并根据分割结果进行迭代优化。长期记忆机制则允许Agent学习专家编辑，实现自我进化和个性化工作流程。

技术框架：GenCellAgent包含以下主要模块：1) 规划器（Planner）：基于LLM，根据输入图像的特征和分割目标，选择合适的分割工具（专家分割器或视觉-语言模型）。2) 执行器（Executor）：执行规划器选择的分割工具，生成分割结果。3) 评估器（Evaluator）：评估分割结果的质量，并根据评估结果调整分割参数或选择其他工具。4) 长期记忆（Long-term Memory）：存储专家编辑和分割经验，用于指导未来的分割任务。整个流程通过迭代执行规划-执行-评估循环，不断优化分割结果。

关键创新：GenCellAgent的关键创新在于：1) 免训练分割：无需针对特定数据集进行训练，即可实现良好的分割性能。2) 多Agent协作：通过LLM协调多个专家分割器和视觉-语言模型，充分利用各种工具的优势。3) 长期记忆和自我进化：通过学习专家编辑，不断提升分割性能和适应能力。4) 文本引导分割：支持对现有模型未覆盖的细胞器进行文本引导分割。

关键设计：规划器使用预训练的LLM，通过prompt engineering使其具备选择工具和调整参数的能力。评估器使用多种指标（如IoU、Dice系数）评估分割结果的质量。长期记忆采用知识图谱的形式，存储专家编辑和分割经验。视觉-语言模型使用CLIP等预训练模型，通过文本描述引导分割。

🖼️ 关键图片

📊 实验亮点

GenCellAgent在四个细胞分割基准测试中，比最先进的基线平均提高了15.7%的准确率。在新数据集的内质网和线粒体分割上，GenCellAgent比专家模型平均提高了37.6%的IoU。此外，它还可以通过迭代的文本引导细化来分割新的对象，例如高尔基体，并通过少量的人工校正进一步提高性能。

🎯 应用场景

GenCellAgent可广泛应用于生物医学研究、药物发现和临床诊断等领域。它可以帮助研究人员快速准确地分割细胞图像，从而进行细胞计数、形态分析和功能研究。在药物发现中，它可以用于高通量筛选，评估药物对细胞的影响。在临床诊断中，它可以用于辅助诊断疾病，如癌症和感染。

📄 摘要（原文）

Cellular image segmentation is essential for quantitative biology yet remains difficult due to heterogeneous modalities, morphological variability, and limited annotations. We present GenCellAgent, a training-free multi-agent framework that orchestrates specialist segmenters and generalist vision-language models via a planner-executor-evaluator loop (choose tool $\rightarrow$ run $\rightarrow$ quality-check) with long-term memory. The system (i) automatically routes images to the best tool, (ii) adapts on the fly using a few reference images when imaging conditions differ from what a tool expects, (iii) supports text-guided segmentation of organelles not covered by existing models, and (iv) commits expert edits to memory, enabling self-evolution and personalized workflows. Across four cell-segmentation benchmarks, this routing yields a 15.7\% mean accuracy gain over state-of-the-art baselines. On endoplasmic reticulum and mitochondria from new datasets, GenCellAgent improves average IoU by 37.6\% over specialist models. It also segments novel objects such as the Golgi apparatus via iterative text-guided refinement, with light human correction further boosting performance. Together, these capabilities provide a practical path to robust, adaptable cellular image segmentation without retraining, while reducing annotation burden and matching user preferences.

GenCellAgent: Generalizable, Training-Free Cellular Image Segmentation via Large Language Model Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理