Accurate and Scalable Multimodal Pathology Retrieval via Attentive Vision-Language Alignment
作者: Hongyi Wang, Zhengjie Zhu, Jiabo Ma, Fang Wang, Yue Shi, Bo Luo, Jili Wang, Qiuyu Cai, Xiuming Zhang, Yen-Wei Chen, Lanfen Lin, Hao Chen
分类: cs.CV, cs.IR
发布日期: 2025-10-27
💡 一句话要点
PathSearch:一种基于注意力视觉-语言对齐的精准可扩展多模态病理检索框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 病理图像检索 多模态学习 视觉-语言对齐 注意力机制 全切片图像 对比学习 数字病理学
📋 核心要点
- 全切片图像检索面临千兆像素级图像处理和语义差异捕捉的挑战。
- PathSearch通过注意力机制融合细粒度马赛克特征和全局切片嵌入,实现精准检索。
- 实验表明PathSearch在多种病理学任务中优于传统方法,并提升了诊断准确性。
📝 摘要(中文)
组织病理学切片的快速数字化为临床和研究工作流程中的计算工具开辟了新的可能性。其中,基于内容的切片检索尤为突出,它使病理学家能够识别形态学和语义上相似的病例,从而支持精确诊断,提高观察者之间的一致性,并辅助基于案例的教育。然而,由于全切片图像(WSI)的千兆像素规模以及在大量不相关内容中捕捉细微语义差异的难度,有效检索WSI仍然具有挑战性。为了克服这些挑战,我们提出了PathSearch,一个检索框架,它统一了细粒度的注意力马赛克表示和通过视觉-语言对比学习对齐的全局切片嵌入。PathSearch在包含6,926个切片-报告对的语料库上进行训练,捕获细粒度的形态学线索和高层次的语义模式,以实现准确和灵活的检索。该框架支持两个关键功能:(1)基于马赛克的图像到图像检索,确保准确高效的切片研究;(2)多模态检索,文本查询可以直接检索相关切片。PathSearch在四个公共病理学数据集和三个内部队列上进行了严格评估,涵盖了包括解剖部位检索、肿瘤亚型分类、肿瘤与非肿瘤区分以及乳腺、肺、肾脏、肝脏和胃等不同器官的分级等任务。外部结果表明,PathSearch优于传统的图像到图像检索框架。一项多中心读者研究进一步表明,PathSearch提高了诊断准确性,增强了信心,并提高了病理学家在实际临床场景中的观察者间一致性。这些结果确立了PathSearch作为数字病理学中可扩展和通用的检索解决方案。
🔬 方法详解
问题定义:论文旨在解决全切片病理图像(WSI)的精确和可扩展检索问题。现有方法难以有效处理WSI的超高分辨率和复杂语义信息,导致检索精度低,效率不高。此外,现有方法通常只支持图像到图像的检索,缺乏对文本查询的支持,限制了其应用范围。
核心思路:PathSearch的核心思路是结合细粒度的图像特征和全局语义信息,并通过视觉-语言对比学习将图像和文本信息对齐。通过注意力机制提取图像中的关键区域(马赛克),并使用对比学习将图像嵌入和文本嵌入映射到同一语义空间,从而实现准确的多模态检索。
技术框架:PathSearch框架包含以下主要模块:1) 马赛克提取模块:将WSI分割成多个小图像块(马赛克)。2) 视觉编码器:使用卷积神经网络(CNN)提取每个马赛克的视觉特征,并通过注意力机制选择重要的马赛克。3) 文本编码器:使用Transformer模型提取文本报告的语义特征。4) 对比学习模块:使用对比损失函数,将视觉嵌入和文本嵌入映射到同一语义空间。5) 检索模块:根据查询(图像或文本)计算与数据库中所有WSI的相似度,并返回最相似的结果。
关键创新:PathSearch的关键创新在于:1) 细粒度注意力机制:通过注意力机制选择WSI中的关键区域,从而提高检索精度。2) 视觉-语言对比学习:通过对比学习将图像和文本信息对齐,实现多模态检索。3) 可扩展性:该框架可以处理大规模的WSI数据库,并支持高效的检索。
关键设计:PathSearch的关键设计包括:1) 马赛克大小:选择合适的马赛克大小,以平衡计算复杂度和特征表达能力。2) 注意力机制:使用Transformer结构的注意力机制,学习马赛克之间的关系。3) 对比损失函数:使用InfoNCE损失函数,最大化正样本对的相似度,最小化负样本对的相似度。4) 嵌入维度:选择合适的嵌入维度,以平衡存储空间和检索精度。
🖼️ 关键图片
📊 实验亮点
PathSearch在多个病理学数据集上取得了显著的性能提升。在外部数据集上,PathSearch优于传统的图像到图像检索框架。多中心读者研究表明,PathSearch提高了病理学家的诊断准确性、信心和观察者间一致性。例如,在肿瘤亚型分类任务中,PathSearch的准确率提高了10%以上。
🎯 应用场景
PathSearch可应用于多种临床和研究场景,例如辅助病理诊断、寻找相似病例、加速药物研发、支持病理学教育等。通过快速准确地检索相关病例,PathSearch可以帮助病理学家做出更准确的诊断,提高工作效率,并促进病理学知识的传播。该研究有望推动数字病理学的发展,并最终改善患者的治疗效果。
📄 摘要(原文)
The rapid digitization of histopathology slides has opened up new possibilities for computational tools in clinical and research workflows. Among these, content-based slide retrieval stands out, enabling pathologists to identify morphologically and semantically similar cases, thereby supporting precise diagnoses, enhancing consistency across observers, and assisting example-based education. However, effective retrieval of whole slide images (WSIs) remains challenging due to their gigapixel scale and the difficulty of capturing subtle semantic differences amid abundant irrelevant content. To overcome these challenges, we present PathSearch, a retrieval framework that unifies fine-grained attentive mosaic representations with global-wise slide embeddings aligned through vision-language contrastive learning. Trained on a corpus of 6,926 slide-report pairs, PathSearch captures both fine-grained morphological cues and high-level semantic patterns to enable accurate and flexible retrieval. The framework supports two key functionalities: (1) mosaic-based image-to-image retrieval, ensuring accurate and efficient slide research; and (2) multi-modal retrieval, where text queries can directly retrieve relevant slides. PathSearch was rigorously evaluated on four public pathology datasets and three in-house cohorts, covering tasks including anatomical site retrieval, tumor subtyping, tumor vs. non-tumor discrimination, and grading across diverse organs such as breast, lung, kidney, liver, and stomach. External results show that PathSearch outperforms traditional image-to-image retrieval frameworks. A multi-center reader study further demonstrates that PathSearch improves diagnostic accuracy, boosts confidence, and enhances inter-observer agreement among pathologists in real clinical scenarios. These results establish PathSearch as a scalable and generalizable retrieval solution for digital pathology.