PolyPath: Adapting a Large Multimodal Model for Multi-slide Pathology Report Generation
作者: Faruk Ahmed, Lin Yang, Tiam Jaroensri, Andrew Sellergren, Yossi Matias, Avinatan Hassidim, Greg S. Corrado, Dale R. Webster, Shravya Shetty, Shruthi Prabhakara, Yun Liu, Daniel Golden, Ellery Wulczyn, David F. Steiner
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-02-14
备注: 8 main pages, 21 pages in total
💡 一句话要点
PolyPath:利用大型多模态模型进行多切片病理报告生成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多切片病理 报告生成 大型多模态模型 长上下文窗口 Gemini 1.5 Flash
📋 核心要点
- 现有计算病理学方法难以整合多张高倍镜全切片图像信息,限制了复杂病理诊断的准确性。
- PolyPath利用Gemini 1.5 Flash的长上下文窗口,将大量病理切片图像块输入模型,生成综合诊断报告。
- 实验表明,对于包含最多5张切片的案例,PolyPath生成的报告在临床准确性上与专家报告相当甚至更优。
📝 摘要(中文)
组织病理学案例的解读是医学中许多重要诊断和治疗决策的基础。通常,这一过程需要病理学家整合和总结每个案例的多个切片中的发现。目前计算病理学中的视觉-语言能力主要局限于小区域、低放大倍数的大区域或单个全切片图像(WSI)。这限制了对跨多个WSI的多个高放大倍数区域的发现的解读。通过利用Gemini 1.5 Flash,一个具有100万token上下文窗口的大型多模态模型(LMM),我们展示了从10倍放大倍率的多个WSI中提取的最多40,000个768x768像素图像块生成最终诊断报告的能力。这相当于每秒1帧的11小时视频。专家病理学家的评估表明,生成的报告文本在临床上是准确的,并且对于最多5个切片的多切片示例,在68%(95% CI:[60%,76%])的情况下,优于或等同于原始报告。虽然对于6个或更多切片的示例,性能有所下降,但这项研究证明了利用现代LMM的长上下文能力来完成医学报告生成的独特挑战性任务的前景,其中每个案例可能包含数千个图像块。
🔬 方法详解
问题定义:现有计算病理学方法在处理多张高倍镜全切片图像时面临挑战。病理诊断通常需要整合多个切片的信息,而现有方法主要集中在小区域、低放大倍数或单张全切片图像上,无法充分利用多切片信息进行综合分析。这导致诊断准确性受限,尤其是在复杂病例中。
核心思路:PolyPath的核心思路是利用大型多模态模型(LMM)的长上下文窗口,将多个全切片图像分割成大量图像块,并将这些图像块作为输入,让LMM学习跨多个切片的病理特征,并生成综合诊断报告。这样可以充分利用多切片信息,提高诊断的准确性和全面性。
技术框架:PolyPath的整体框架包括以下几个主要步骤:1)将多个全切片图像分割成768x768像素的图像块;2)将这些图像块输入到Gemini 1.5 Flash LMM中;3)LMM利用其长上下文窗口处理这些图像块,学习跨切片的病理特征;4)LMM生成综合诊断报告。
关键创新:PolyPath的关键创新在于利用了LMM的长上下文窗口来处理大量的病理图像块。这使得模型能够学习跨多个切片的病理特征,从而生成更准确和全面的诊断报告。与现有方法相比,PolyPath能够处理更多的图像信息,并更好地整合多切片信息。
关键设计:PolyPath使用了Gemini 1.5 Flash LMM,该模型具有100万token的上下文窗口。输入图像块的大小为768x768像素,放大倍率为10倍。实验中,每个案例最多使用了40,000个图像块。模型的训练和评估使用了专家病理学家的标注数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,对于包含最多5张切片的案例,PolyPath生成的报告在临床准确性上与专家报告相当甚至更优,68%(95% CI:[60%,76%])的情况下优于或等同于原始报告。这证明了PolyPath在多切片病理报告生成方面的有效性。虽然对于6张或更多切片的案例,性能有所下降,但该研究仍然展示了LMM在处理大量病理图像信息方面的潜力。
🎯 应用场景
PolyPath在病理诊断领域具有广泛的应用前景。它可以辅助病理学家进行诊断,提高诊断效率和准确性,尤其是在复杂病例中。此外,PolyPath还可以用于病理教学和研究,帮助学生和研究人员更好地理解病理特征和诊断过程。未来,PolyPath有望成为病理诊断的重要工具,推动病理学的发展。
📄 摘要(原文)
The interpretation of histopathology cases underlies many important diagnostic and treatment decisions in medicine. Notably, this process typically requires pathologists to integrate and summarize findings across multiple slides per case. Existing vision-language capabilities in computational pathology have so far been largely limited to small regions of interest, larger regions at low magnification, or single whole-slide images (WSIs). This limits interpretation of findings that span multiple high-magnification regions across multiple WSIs. By making use of Gemini 1.5 Flash, a large multimodal model (LMM) with a 1-million token context window, we demonstrate the ability to generate bottom-line diagnoses from up to 40,000 768x768 pixel image patches from multiple WSIs at 10X magnification. This is the equivalent of up to 11 hours of video at 1 fps. Expert pathologist evaluations demonstrate that the generated report text is clinically accurate and equivalent to or preferred over the original reporting for 68% (95% CI: [60%, 76%]) of multi-slide examples with up to 5 slides. While performance decreased for examples with 6 or more slides, this study demonstrates the promise of leveraging the long-context capabilities of modern LMMs for the uniquely challenging task of medical report generation where each case can contain thousands of image patches.