PathAgent: Toward Interpretable Analysis of Whole-slide Pathology Images via Large Language Model-based Agentic Reasoning

📄 arXiv: 2511.17052v1 📥 PDF

作者: Jingyun Chen, Linghan Cai, Zhikang Wang, Yi Huang, Songhan Jiang, Shenjin Huang, Hongpeng Wang, Yongbing Zhang

分类: cs.CV

发布日期: 2025-11-21

备注: 11 pages, 6 figures


💡 一句话要点

PathAgent:基于大语言模型Agent的病理切片图像可解释分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全切片病理图像 大语言模型 Agent 可解释性 零样本学习

📋 核心要点

  1. 现有WSI分析方法缺乏明确的推理过程,导致预测结果不透明且难以解释,限制了临床应用。
  2. PathAgent通过LLM驱动的Agent框架,模拟病理学家的分析过程,实现对WSI的自主探索和可解释推理。
  3. 实验表明,PathAgent在多个数据集上表现出强大的零样本泛化能力,并在视觉问答任务中超越了现有基线。

📝 摘要(中文)

分析全切片病理图像(WSI)需要一个迭代的、证据驱动的推理过程,类似于病理学家动态缩放、重新聚焦和自我纠正以收集证据的方式。然而,现有的计算流程通常缺乏这种明确的推理轨迹,导致预测本质上是不透明和不可辩解的。为了弥合这一差距,我们提出了PathAgent,一个无需训练的、基于大型语言模型(LLM)的Agent框架,它模拟了人类专家的反思性、逐步分析方法。PathAgent可以自主探索WSI,使用导航器模块迭代且精确地定位重要的微区域,使用感知器提取形态视觉线索,并将这些发现整合到不断演变的自然语言轨迹中。整个观察和决策序列形成了一个明确的思维链,从而产生完全可解释的预测。在五个具有挑战性的数据集上进行评估,PathAgent表现出强大的零样本泛化能力,在开放式和约束性视觉问答任务中均超过了特定于任务的基线。此外,与人类病理学家的协作评估证实了PathAgent作为透明且具有临床基础的诊断助手的潜力。

🔬 方法详解

问题定义:现有全切片病理图像(WSI)分析方法缺乏明确的推理过程,导致模型预测结果难以解释,无法提供可靠的证据链支持诊断决策。病理学家在分析WSI时,会进行迭代的观察、聚焦和推理,而现有方法难以模拟这种过程,导致模型成为一个“黑盒”。

核心思路:PathAgent的核心思路是利用大型语言模型(LLM)构建一个Agent,模拟病理学家的分析过程。该Agent能够自主地探索WSI,提取关键区域的视觉信息,并将其整合到自然语言的推理轨迹中,从而实现可解释的预测。通过模仿人类专家的分析流程,PathAgent旨在提高WSI分析的透明度和可信度。

技术框架:PathAgent包含三个主要模块:导航器(Navigator)、感知器(Perceptor)和执行器(Executor)。导航器负责自主探索WSI,迭代地定位重要的微区域。感知器负责从这些区域提取形态视觉线索。执行器则负责将这些视觉线索整合到不断演变的自然语言轨迹中,形成一个明确的思维链。整个流程模拟了病理学家在分析WSI时的观察、聚焦和推理过程。

关键创新:PathAgent最重要的技术创新在于其基于LLM的Agent框架,该框架能够将WSI分析过程转化为一个可解释的自然语言推理轨迹。与传统的“黑盒”模型不同,PathAgent能够提供每一步决策的依据,从而提高模型的可信度和可解释性。此外,PathAgent是无需训练的,能够直接应用于不同的WSI分析任务,具有很强的泛化能力。

关键设计:PathAgent的关键设计包括:导航器模块使用强化学习或启发式算法来指导WSI的探索过程;感知器模块使用预训练的视觉模型(如CLIP)来提取形态视觉线索;执行器模块使用LLM(如GPT-3)来生成自然语言的推理轨迹。具体的参数设置和网络结构取决于所使用的具体模型和算法,但整体目标是模拟病理学家的分析过程,并生成可解释的推理轨迹。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PathAgent在五个具有挑战性的WSI数据集上进行了评估,并在开放式和约束性视觉问答任务中均超过了特定于任务的基线。与人类病理学家的协作评估也证实了PathAgent作为透明且具有临床基础的诊断助手的潜力。实验结果表明,PathAgent具有强大的零样本泛化能力,能够直接应用于不同的WSI分析任务,无需进行额外的训练。

🎯 应用场景

PathAgent具有广泛的应用前景,可作为病理学家的辅助诊断工具,提高诊断效率和准确性。其可解释的推理过程有助于医生理解模型的决策依据,增强对模型的信任。此外,PathAgent还可用于药物研发、疾病预测等领域,为精准医疗提供支持。未来,PathAgent有望成为推动病理学智能化发展的重要力量。

📄 摘要(原文)

Analyzing whole-slide images (WSIs) requires an iterative, evidence-driven reasoning process that parallels how pathologists dynamically zoom, refocus, and self-correct while collecting the evidence. However, existing computational pipelines often lack this explicit reasoning trajectory, resulting in inherently opaque and unjustifiable predictions. To bridge this gap, we present PathAgent, a training-free, large language model (LLM)-based agent framework that emulates the reflective, stepwise analytical approach of human experts. PathAgent can autonomously explore WSI, iteratively and precisely locating significant micro-regions using the Navigator module, extracting morphology visual cues using the Perceptor, and integrating these findings into the continuously evolving natural language trajectories in the Executor. The entire sequence of observations and decisions forms an explicit chain-of-thought, yielding fully interpretable predictions. Evaluated across five challenging datasets, PathAgent exhibits strong zero-shot generalization, surpassing task-specific baselines in both open-ended and constrained visual question-answering tasks. Moreover, a collaborative evaluation with human pathologists confirms PathAgent's promise as a transparent and clinically grounded diagnostic assistant.