MLLM-HWSI: A Multimodal Large Language Model for Hierarchical Whole Slide Image Understanding

作者: Basit Alawode, Arif Mahmood, Muaz Khalifa Al-Radi, Shahad Albastaki, Asim Khan, Muhammad Bilal, Moshira Ali Abdalla, Mohammed Bennamoun, Sajid Javed

分类: cs.CV

发布日期: 2026-03-24

🔗 代码/项目: GITHUB

💡 一句话要点

MLLM-HWSI：用于分层全切片图像理解的多模态大语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 全切片图像理解 多模态大语言模型 分层表示学习 计算病理学 跨尺度一致性 细胞注意力融合 医学图像分析

📋 核心要点

现有CPath MLLM将整个WSI压缩为单个嵌入，忽略了WSI的分层结构和病理学家在不同尺度上综合证据的方式，限制了细粒度推理。
MLLM-HWSI通过在细胞、切片、区域和WSI四个尺度上对齐视觉特征与病理学语言，实现可解释的、基于证据的推理。
MLLM-HWSI在13个WSI级别基准测试中取得了新的SOTA结果，证明了其在WSI理解方面的有效性和优越性。

📝 摘要（中文）

全切片图像(WSI)呈现出分层结构，诊断信息从细胞形态、区域组织和全局上下文涌现。现有的计算病理学(CPath)多模态大语言模型(MLLM)通常将整个WSI压缩成单个嵌入，这阻碍了细粒度的定位，并忽略了病理学家如何在不同尺度上综合证据。我们提出了MLLM-HWSI，一种分层WSI级别的MLLM，它在四个不同的尺度上将视觉特征与病理学语言对齐：细胞作为单词，切片作为短语，区域作为句子，WSI作为段落，以支持可解释的、基于证据的推理。MLLM-HWSI将每个WSI分解为多尺度嵌入，并使用特定尺度的投影器，共同强制执行(i)分层对比目标和(ii)跨尺度一致性损失，从而保持从细胞到WSI的语义连贯性。我们计算诊断相关的切片，并使用轻量级的细胞-细胞注意力融合(CCAF) Transformer将分割的细胞嵌入聚合为每个切片的紧凑细胞token。投影的多尺度token与文本token融合，并输入到指令调优的LLM中，用于开放式推理、VQA、报告和标题生成任务。经过三个阶段的训练，MLLM-HWSI在六个CPath任务的13个WSI级别基准测试中取得了新的SOTA结果。通过将语言与多尺度视觉证据对齐，MLLM-HWSI提供了准确、可解释的输出，反映了诊断工作流程，并促进了整体WSI理解。

🔬 方法详解

问题定义：现有计算病理学多模态大语言模型无法有效处理全切片图像（WSI）的分层结构，通常将整个WSI压缩成单一嵌入，忽略了细胞形态、组织区域和全局上下文之间的关联，导致细粒度信息损失和推理能力不足。现有方法难以模拟病理学家在不同尺度上综合证据进行诊断的流程。

核心思路：MLLM-HWSI的核心思路是将WSI分解为多个尺度级别的视觉特征表示，并将其与病理学语言对齐。通过在细胞、切片、区域和WSI四个尺度上建立视觉和语言之间的对应关系，模型能够更好地理解WSI的分层结构，并进行更准确、可解释的推理。这种多尺度表示方法模拟了病理学家在诊断过程中观察和分析WSI的方式。

技术框架：MLLM-HWSI的整体框架包括以下几个主要模块：1) 多尺度WSI分解：将WSI分解为细胞、切片、区域和WSI四个尺度级别的图像块。2) 特征提取：使用卷积神经网络提取每个尺度级别的视觉特征。3) 细胞-细胞注意力融合(CCAF)：使用轻量级的Transformer将分割的细胞嵌入聚合为每个切片的紧凑细胞token。4) 尺度特定投影器：将不同尺度的视觉特征投影到统一的嵌入空间。5) 分层对比学习和跨尺度一致性损失：通过分层对比目标和跨尺度一致性损失来训练模型，以保持从细胞到WSI的语义连贯性。6) 多模态融合：将投影的多尺度视觉token与文本token融合。7) 大语言模型(LLM)：使用指令调优的LLM进行开放式推理、VQA、报告和标题生成任务。

关键创新：MLLM-HWSI的关键创新在于其多尺度分层表示方法和跨尺度一致性学习机制。与现有方法相比，MLLM-HWSI能够更好地捕捉WSI的分层结构，并利用不同尺度之间的关联信息进行推理。CCAF模块也是一个创新点，它能够有效地聚合细胞信息，并减少计算量。

关键设计：在训练过程中，MLLM-HWSI使用了分层对比损失和跨尺度一致性损失。分层对比损失旨在使相同WSI的不同尺度级别的特征表示更加接近，而跨尺度一致性损失则旨在保持不同尺度之间语义的一致性。CCAF模块使用了一个轻量级的Transformer，以减少计算量。模型经过三个阶段的训练，包括预训练、微调和指令调优。

🖼️ 关键图片

📊 实验亮点

MLLM-HWSI在13个WSI级别基准测试中取得了新的SOTA结果，证明了其优越的性能。具体而言，该模型在开放式推理、VQA、报告和标题生成等任务上均取得了显著的提升。与现有方法相比，MLLM-HWSI能够更准确地理解WSI的分层结构，并生成更具信息量和可解释性的输出。

🎯 应用场景

MLLM-HWSI在计算病理学领域具有广泛的应用前景，可用于辅助病理学家进行疾病诊断、预后预测和治疗方案选择。该模型可以应用于多种病理学任务，如肿瘤检测、分级和基因突变预测。此外，MLLM-HWSI还可以用于生成病理报告和图像描述，提高病理学研究的效率和准确性。未来，该模型有望成为病理学家的重要辅助工具，提升医疗水平。

📄 摘要（原文）

Whole Slide Images (WSIs) exhibit hierarchical structure, where diagnostic information emerges from cellular morphology, regional tissue organization, and global context. Existing Computational Pathology (CPath) Multimodal Large Language Models (MLLMs) typically compress an entire WSI into a single embedding, which hinders fine-grained grounding and ignores how pathologists synthesize evidence across different scales. We introduce \textbf{MLLM-HWSI}, a Hierarchical WSI-level MLLM that aligns visual features with pathology language at four distinct scales, cell as word, patch as phrase, region as sentence, and WSI as paragraph to support interpretable evidence-grounded reasoning. MLLM-HWSI decomposes each WSI into multi-scale embeddings with scale-specific projectors and jointly enforces (i) a hierarchical contrastive objective and (ii) a cross-scale consistency loss, preserving semantic coherence from cells to the WSI. We compute diagnostically relevant patches and aggregate segmented cell embeddings into a compact cellular token per-patch using a lightweight \textit{Cell-Cell Attention Fusion (CCAF)} transformer. The projected multi-scale tokens are fused with text tokens and fed to an instruction-tuned LLM for open-ended reasoning, VQA, report, and caption generation tasks. Trained in three stages, MLLM-HWSI achieves new SOTA results on 13 WSI-level benchmarks across six CPath tasks. By aligning language with multi-scale visual evidence, MLLM-HWSI provides accurate, interpretable outputs that mirror diagnostic workflows and advance holistic WSI understanding. Code is available at: \href{https://github.com/BasitAlawode/HWSI-MLLM}{GitHub}.

MLLM-HWSI: A Multimodal Large Language Model for Hierarchical Whole Slide Image Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理