HOMIE: Histopathology Omni-modal Embedding for Pathology Composed Retrieval

📄 arXiv: 2502.07221v3 📥 PDF

作者: Qifeng Zhou, Wenliang Zhong, Thao M. Dang, Hehuan Ma, Saiyang Na, Yuzhi Guo, Junzhou Huang

分类: cs.CV

发布日期: 2025-02-11 (更新: 2025-12-21)


💡 一句话要点

HOMIE:用于病理组合检索的组织病理学全模态嵌入方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理图像检索 多模态学习 大型语言模型 组合检索 深度学习

📋 核心要点

  1. 现有病理图像检索方法难以处理由多种模态信息组合而成的复杂查询,限制了其在实际临床应用中的效果。
  2. HOMIE通过两阶段训练策略,将通用的多模态大语言模型适配到病理图像检索任务,并针对病理学领域进行专门优化。
  3. 实验结果表明,HOMIE在传统检索任务上达到SOTA水平,并在新提出的病理组合检索任务上显著优于其他方法。

📝 摘要(中文)

人工智能在病理学中的应用面临挑战:黑盒预测模型缺乏透明性,而生成方法存在临床幻觉风险。基于案例的检索范式提供了一种更易于临床采用的可解释替代方案。然而,当前最优模型受限于无法处理真实临床查询的组合模态的双编码器架构。本文正式定义了病理组合检索(PCR)任务。该任务面临两个关键挑战:(1)多模态大型语言模型(MLLM)提供了必要的深度融合架构,但存在任务不匹配和领域不匹配问题。(2)缺乏评估此类组合查询的基准。为了解决这些挑战,本文提出了HOMIE,一个将通用MLLM转换为专业检索专家的系统框架。HOMIE通过两阶段过程解决双重不匹配问题:检索适应阶段解决任务不匹配,病理学特定微调阶段,采用渐进式知识课程、病理学特定染色和原生分辨率处理,解决领域不匹配。本文还引入了PCR基准,用于评估病理学中的组合检索。实验表明,仅在公共数据上训练的HOMIE在传统检索任务上与SOTA性能相匹配,并在新定义的PCR任务上优于所有基线。

🔬 方法详解

问题定义:论文旨在解决病理学领域中,现有检索方法无法有效处理组合模态查询的问题。现有方法,特别是基于双编码器的架构,难以融合文本描述和病理图像的多种信息,无法满足临床医生提出的复杂检索需求。这导致检索结果的相关性和准确性降低。

核心思路:论文的核心思路是将通用的多模态大型语言模型(MLLM)转化为一个专业的病理图像检索专家。通过利用MLLM强大的多模态融合能力,并结合针对病理学领域的特定优化,HOMIE能够更好地理解和处理组合模态查询。这种方法避免了从头开始训练模型的需要,并能够利用已有的预训练知识。

技术框架:HOMIE的整体框架包含两个主要阶段:检索适应阶段和病理学特定微调阶段。在检索适应阶段,模型通过对比学习等方法,学习如何将文本查询和病理图像映射到同一个嵌入空间,从而解决任务不匹配的问题。在病理学特定微调阶段,模型通过渐进式知识课程、病理学特定染色和原生分辨率处理等技术,进一步提升在病理学领域的性能,解决领域不匹配的问题。

关键创新:HOMIE的关键创新在于其两阶段训练策略,能够有效地将通用的MLLM适配到病理图像检索任务。此外,论文还提出了病理组合检索(PCR)任务,并构建了相应的基准数据集,为该领域的研究提供了新的方向。渐进式知识课程和病理学特定染色处理也是重要的技术创新点。

关键设计:在检索适应阶段,论文采用了对比学习损失函数,鼓励相似的文本查询和病理图像具有相近的嵌入表示。在病理学特定微调阶段,论文设计了渐进式知识课程,从简单的任务开始,逐步增加任务的难度,从而更好地训练模型。此外,论文还针对病理图像的特点,采用了病理学特定染色处理和原生分辨率处理等技术,以提升模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HOMIE在传统检索任务上与SOTA性能相匹配,并在新定义的PCR任务上显著优于所有基线。具体而言,HOMIE在PCR任务上的性能提升超过了10%,证明了其在处理组合模态查询方面的优越性。此外,实验结果还表明,HOMIE的性能提升主要来自于病理学特定微调阶段,验证了领域知识的重要性。

🎯 应用场景

HOMIE在病理诊断、教学和研究中具有广泛的应用前景。医生可以利用HOMIE快速检索与特定病例相似的案例,辅助诊断决策。医学生可以通过HOMIE学习不同疾病的病理特征。研究人员可以利用HOMIE发现新的疾病关联和生物标志物。该研究有助于提高病理诊断的准确性和效率,并促进病理学领域的知识发现。

📄 摘要(原文)

The integration of Artificial Intelligence (AI) into pathology faces a fundamental challenge: black-box predictive models lack transparency, while generative approaches risk clinical hallucination. A case-based retrieval paradigm offers a more interpretable alternative for clinical adoption. However, current SOTA models are constrained by dual-encoder architectures that cannot process the composed modality of real-world clinical queries. We formally define the task of Pathology Composed Retrieval (PCR). However, progress in this newly defined task is blocked by two critical challenges: (1) Multimodal Large Language Models (MLLMs) offer the necessary deep-fusion architecture but suffer from a critical Task Mismatch and Domain Mismatch. (2) No benchmark exists to evaluate such compositional queries. To solve these challenges, we propose HOMIE, a systematic framework that transforms a general MLLM into a specialized retrieval expert. HOMIE resolves the dual mismatch via a two-stage process: a retrieval-adaptation stage to solve the task mismatch, and a pathology-specific tuning stage, featuring a progressive knowledge curriculum, pathology specfic stain and native resolution processing, to solve the domain mismatch. We also introduce the PCR Benchmark, a benchmark designed to evaluate composed retrieval in pathology. Experiments show that HOMIE, trained only on public data, matches SOTA performance on traditional retrieval tasks and outperforms all baselines on the newly defined PCR task.