ChatEXAONEPath: An Expert-level Multimodal Large Language Model for Histopathology Using Whole Slide Images

📄 arXiv: 2504.13023v1 📥 PDF

作者: Sangwook Kim, Soonyoung Lee, Jongseong Jang

分类: cs.CL, cs.CV

发布日期: 2025-04-17


💡 一句话要点

ChatEXAONEPath:一种用于组织病理学WSI的专家级多模态大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 组织病理学 全切片图像 癌症诊断 临床报告 数据生成 AI评估

📋 核心要点

  1. 现有方法在组织病理学中缺乏对完整临床背景的理解,因为它们主要依赖于切片级别的数据,信息有限。
  2. ChatEXAONEPath通过检索相关的WSI和病理报告,生成训练数据,从而使模型能够理解更全面的临床背景。
  3. 实验结果表明,ChatEXAONEPath在诊断组织病理学图像方面表现出良好的能力,接受率达到62.9%。

📝 摘要(中文)

本研究提出了一种专家级多模态大语言模型ChatEXAONEPath,用于处理组织病理学中的全切片图像(WSI)。现有研究在医学领域的大语言模型(LLM)方面取得了显著进展,能够回答专家级问题,并展示了在实际临床场景中辅助临床医生的潜力。将多种模态与现有LLM集成,对于更好地理解复杂临床背景至关重要。然而,现有的多模态LLM在组织病理学中,由于公共数据集提供的切片级别数据信息有限,缺乏对完整临床背景的理解。因此,开发WSI级别的MLLM对于MLLM在组织病理学中的可扩展性和适用性至关重要。本研究使用来自癌症基因组图谱(TCGA)的10,094对WSI和组织病理学报告,提出了一种基于检索的数据生成流程。同时,展示了一种基于AI的评估协议,用于全面理解多模态信息中的医学背景,并将生成的答案与原始组织病理学报告进行比较。实验结果表明,ChatEXAONEPath能够诊断给定的组织病理学图像,接受率为62.9%(基于1,134对WSI和报告)。该模型能够理解泛癌WSI以及来自各种癌症类型的临床背景。我们认为,通过整合多种模态,该模型有潜力通过全面理解WSI的复杂形态来辅助临床医生进行癌症诊断。

🔬 方法详解

问题定义:现有方法在组织病理学图像分析中,特别是使用多模态大语言模型时,面临着缺乏对完整临床背景理解的问题。现有的模型通常基于切片级别的数据进行训练,这限制了它们对复杂病理情况的理解和诊断能力。因此,如何利用全切片图像(WSI)的全局信息,并将其与病理报告相结合,以提升模型的诊断准确性和临床应用价值,是本研究要解决的关键问题。

核心思路:本研究的核心思路是构建一个能够理解WSI级别信息的专家级多模态大语言模型。通过构建一个基于检索的数据生成流程,利用大量的WSI和病理报告数据,使模型能够学习到WSI的全局特征和临床背景知识。这种方法旨在弥补现有方法在理解完整临床背景方面的不足,从而提高模型在组织病理学诊断中的性能。

技术框架:ChatEXAONEPath的技术框架主要包括以下几个阶段:1) 数据检索与生成:利用TCGA数据库中的WSI和病理报告,构建一个检索系统,用于检索与给定WSI相关的病理报告。2) 多模态融合:将WSI的图像特征和病理报告的文本信息进行融合,形成多模态输入。3) 大语言模型训练:使用生成的数据对大语言模型进行训练,使其能够理解WSI的全局特征和临床背景知识。4) AI评估:设计一种基于AI的评估协议,用于评估模型生成的答案与原始病理报告的相似度和准确性。

关键创新:本研究的关键创新在于:1) 提出了一个基于检索的数据生成流程,能够有效地利用大量的WSI和病理报告数据。2) 构建了一个专家级多模态大语言模型,能够理解WSI的全局特征和临床背景知识。3) 设计了一种基于AI的评估协议,能够全面评估模型生成的答案的质量。与现有方法相比,本研究更注重对WSI全局信息的利用和对临床背景知识的理解。

关键设计:在数据生成方面,采用了基于检索的方法,以确保生成的数据与WSI具有高度相关性。在模型训练方面,采用了交叉熵损失函数,以优化模型生成的答案与原始病理报告之间的相似度。在网络结构方面,采用了Transformer架构,以有效地处理WSI的图像特征和病理报告的文本信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ChatEXAONEPath在诊断组织病理学图像方面表现出良好的性能,接受率达到62.9%(基于1,134对WSI和报告)。该模型能够理解泛癌WSI以及来自各种癌症类型的临床背景,证明了其在处理复杂病理情况方面的潜力。与现有方法相比,ChatEXAONEPath更注重对WSI全局信息的利用和对临床背景知识的理解,从而提高了诊断准确性。

🎯 应用场景

ChatEXAONEPath具有广泛的应用前景,可用于辅助病理医生进行癌症诊断,提高诊断效率和准确性。该模型还可以用于医学教育和研究,帮助学生和研究人员更好地理解组织病理学图像和临床背景知识。未来,该模型有望应用于远程医疗和个性化医疗,为患者提供更便捷和精准的医疗服务。

📄 摘要(原文)

Recent studies have made significant progress in developing large language models (LLMs) in the medical domain, which can answer expert-level questions and demonstrate the potential to assist clinicians in real-world clinical scenarios. Studies have also witnessed the importance of integrating various modalities with the existing LLMs for a better understanding of complex clinical contexts, which are innately multi-faceted by nature. Although studies have demonstrated the ability of multimodal LLMs in histopathology to answer questions from given images, they lack in understanding of thorough clinical context due to the patch-level data with limited information from public datasets. Thus, developing WSI-level MLLMs is significant in terms of the scalability and applicability of MLLMs in histopathology. In this study, we introduce an expert-level MLLM for histopathology using WSIs, dubbed as ChatEXAONEPath. We present a retrieval-based data generation pipeline using 10,094 pairs of WSIs and histopathology reports from The Cancer Genome Atlas (TCGA). We also showcase an AI-based evaluation protocol for a comprehensive understanding of the medical context from given multimodal information and evaluate generated answers compared to the original histopathology reports. We demonstrate the ability of diagnosing the given histopathology images using ChatEXAONEPath with the acceptance rate of 62.9% from 1,134 pairs of WSIs and reports. Our proposed model can understand pan-cancer WSIs and clinical context from various cancer types. We argue that our proposed model has the potential to assist clinicians by comprehensively understanding complex morphology of WSIs for cancer diagnosis through the integration of multiple modalities.