PathMem: Toward Cognition-Aligned Memory Transformation for Pathology MLLMs
作者: Jinyue Li, Yuci Liang, Qiankun Li, Xinheng Lyu, Jiayu Qian, Huabao Chen, Kun Wang, Zhigang Zeng, Anil Anthony Bharath, Yang Liu
分类: cs.AI
发布日期: 2026-03-10
💡 一句话要点
提出PathMem以解决病理MLLMs知识整合不足问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大型语言模型 病理学 记忆变换器 长期记忆 工作记忆 知识整合 上下文感知 推理能力
📋 核心要点
- 现有多模态大型语言模型在病理学中的应用面临知识整合不足和推理不一致的问题。
- PathMem通过将结构化病理知识组织为长期记忆,并引入记忆变换器,实现了动态记忆转化和上下文感知的知识整合。
- 实验结果表明,PathMem在WSI-Bench报告生成和开放式诊断上均显著优于现有模型,提升幅度达到9.7%至12.8%。
📝 摘要(中文)
计算病理学需要视觉模式识别和动态整合结构化领域知识,包括分类法、分级标准和临床证据。现有的多模态大型语言模型(MLLMs)在视觉语言推理方面表现出色,但缺乏明确的结构化知识整合机制和可解释的记忆控制。为此,本文提出了PathMem,一个以记忆为中心的多模态框架,组织结构化病理知识为长期记忆,并通过记忆变换器实现长期记忆与工作记忆之间的动态转变,从而支持上下文感知的记忆优化。PathMem在多个基准测试中实现了SOTA性能,WSI-Bench报告生成提升了12.8%的WSI精准度和10.1%的WSI相关性,开放式诊断提升了9.7%和8.9%。
🔬 方法详解
问题定义:本文旨在解决现有多模态大型语言模型在病理学领域中对结构化知识整合和可解释记忆控制的不足,导致推理过程中的不一致性和准确性问题。
核心思路:PathMem的核心思路是模仿人类病理学家的层次记忆过程,将结构化病理知识作为长期记忆,并通过记忆变换器实现长期记忆与工作记忆之间的动态转化,从而支持上下文感知的记忆优化。
技术框架:PathMem的整体架构包括长期记忆(LTM)模块和工作记忆(WM)模块,记忆变换器负责在这两个模块之间进行动态转化,结合多模态记忆激活和上下文感知的知识基础。
关键创新:PathMem的主要创新在于引入了记忆变换器,能够有效地实现长期记忆与工作记忆之间的动态转换,增强了模型在病理特定诊断标准下的推理能力。
关键设计:在设计上,PathMem采用了特定的损失函数以优化记忆的上下文感知能力,并在网络结构中引入了多模态信息融合机制,以提升模型的整体性能。
🖼️ 关键图片
📊 实验亮点
PathMem在多个基准测试中表现出色,WSI-Bench报告生成的WSI精准度提升了12.8%,WSI相关性提升了10.1%。在开放式诊断方面,相较于之前的WSI模型,PathMem分别提升了9.7%和8.9%,显示出其在病理推理中的显著优势。
🎯 应用场景
PathMem的研究成果在计算病理学领域具有广泛的应用潜力,能够提升病理图像分析的准确性和效率,帮助病理学家在临床诊断中更好地整合和利用结构化知识。未来,该框架还可以扩展到其他医学影像分析和智能诊断系统中,推动相关领域的发展。
📄 摘要(原文)
Computational pathology demands both visual pattern recognition and dynamic integration of structured domain knowledge, including taxonomy, grading criteria, and clinical evidence. In practice, diagnostic reasoning requires linking morphological evidence with formal diagnostic and grading criteria. Although multimodal large language models (MLLMs) demonstrate strong vision language reasoning capabilities, they lack explicit mechanisms for structured knowledge integration and interpretable memory control. As a result, existing models struggle to consistently incorporate pathology-specific diagnostic standards during reasoning. Inspired by the hierarchical memory process of human pathologists, we propose PathMem, a memory-centric multimodal framework for pathology MLLMs. PathMem organizes structured pathology knowledge as a long-term memory (LTM) and introduces a Memory Transformer that models the dynamic transition from LTM to working memory (WM) through multimodal memory activation and context-aware knowledge grounding, enabling context-aware memory refinement for downstream reasoning. PathMem achieves SOTA performance across benchmarks, improving WSI-Bench report generation (12.8% WSI-Precision, 10.1% WSI-Relevance) and open-ended diagnosis by 9.7% and 8.9% over prior WSI-based models.