Genetically Aligned Patient Representations Improve Hematological Diagnosis

📄 arXiv: 2605.29980v1 📥 PDF

作者: Muhammed Furkan Dasdelen, Fatih Ozlugedik, Ilaria Looser, Rao Muhammad Umer, Christian Pohlkamp, Carsten Marr

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-28

备注: Accepted for publication at the 29th International Conference on Medical Image Computing and Computer Assisted Intervention - MICCAI 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出基因对齐的患者表征方法,提升血液学诊断性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 血液学诊断 基因对齐 多模态学习 对比学习 Transformer 自监督学习 细胞图像分析

📋 核心要点

  1. 现有方法缺乏有效整合细胞图像与基因数据的能力,限制了血液学诊断的准确性。
  2. 该论文提出了一种两阶段训练策略,首先进行自监督视觉预训练,然后通过对比学习实现基因对齐。
  3. 实验结果表明,该方法在血液学诊断任务中优于现有方法,并具备疾病和基因改变的检索能力。

📝 摘要(中文)

组织病理学编码器与转录组和基因组数据的多模态对齐已被证明能显著提高下游诊断任务的性能。血液细胞学的一个独特之处在于,对单个白细胞的视觉评估通常与细胞遗传学和分子遗传学相结合,用于血癌诊断。本研究提出了一个框架,将单个白细胞图像与染色体畸变(核型)和来自靶向基因panel的体细胞突变对齐。我们的训练策略遵循两阶段方法:(i)在超过1500名患者的队列上,使用iBOT head对transformer聚合器进行自监督、仅视觉的预训练;(ii)通过急性髓系白血病患者的监督对比损失进行基因对齐。我们基因对齐的患者编码器提高了血液学诊断任务的性能,优于slide级别的组织病理学基础模型。此外,该模型还为疾病和基因改变提供了现成的检索能力。将基因数据纳入患者编码器可以提高患者表征的质量,提供一个与临床诊断工作流程对齐的框架,并为未来的多模态血液学特定AI铺平道路。代码和模型权重可在https://github.com/marrlab/GenBloom获取。

🔬 方法详解

问题定义:现有血液学诊断方法通常依赖于细胞图像的视觉评估,但缺乏与基因数据的有效整合。这限制了诊断的准确性和全面性,尤其是在血癌等复杂疾病中。现有slide级别的组织病理学基础模型无法充分利用单细胞层面的信息,并且忽略了重要的基因组数据。

核心思路:该论文的核心思路是将单细胞图像与对应的基因数据(染色体畸变和体细胞突变)进行对齐,从而学习到更具信息量的患者表征。通过将视觉信息与基因信息相结合,模型可以更好地理解疾病的本质,并提高诊断的准确性。

技术框架:该框架包含两个主要阶段:(1) 自监督视觉预训练:使用iBOT head对Transformer聚合器进行预训练,学习细胞图像的通用视觉特征。(2) 基因对齐:使用监督对比损失,将细胞图像的视觉特征与对应的基因数据进行对齐。最终得到的患者编码器可以用于下游的诊断任务和信息检索。

关键创新:该论文的关键创新在于将基因信息融入到患者表征的学习过程中。通过监督对比学习,模型能够学习到视觉特征与基因数据之间的关联,从而提高患者表征的质量。此外,该方法采用两阶段训练策略,首先进行自监督预训练,然后进行基因对齐,可以有效地利用大量的未标记数据。

关键设计:在自监督预训练阶段,使用iBOT head来学习细胞图像的视觉特征。在基因对齐阶段,使用监督对比损失来拉近具有相同基因特征的细胞图像的距离,并推开具有不同基因特征的细胞图像的距离。具体的损失函数设计和Transformer聚合器的结构细节在论文中有详细描述。模型使用超过1500名患者的数据进行预训练,并使用急性髓系白血病患者的数据进行基因对齐。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该研究提出的基因对齐患者编码器在血液学诊断任务中表现出色,优于slide级别的组织病理学基础模型。模型能够有效检索疾病和基因改变,为临床诊断提供有力支持。实验结果表明,将基因数据纳入患者编码器可以显著提高患者表征的质量。

🎯 应用场景

该研究成果可应用于血液肿瘤的辅助诊断,帮助医生更准确地识别疾病类型和基因变异。通过提供疾病和基因改变的检索能力,该模型可以加速诊断流程,并为个性化治疗方案的制定提供依据。未来,该方法有望扩展到其他涉及多模态数据的医学诊断领域,例如病理学、影像学等。

📄 摘要(原文)

Multimodal alignment of histopathology encoders with transcriptomic and genomic data has been shown to significantly improve performance in downstream diagnostic tasks. Hematological cytology is unique in that visual single-cell evaluation is often paired with cytogenetics and molecular genetics for blood cancer diagnosis. In this study, we present a framework to align single white blood cell images with chromosomal aberrations (karyotype) and somatic mutations from targeted gene panels. Our training strategy follows a two-stage approach: (i) self-supervised, vision-only pretraining of a transformer aggregator using an iBOT head on a cohort of over 1500 patients, and (ii) genetic alignment via supervised contrastive loss on acute myeloid leukemia patients. Our genetically aligned patient encoder improves hematological diagnostic tasks, outperforming slide-level histopathology foundation models. Additionally, the model provides off-the-shelf retrieval capabilities for diseases and genetic alterations. Incorporating genetic data into patient encoders increases the quality of patient representations, providing a framework that aligns with clinical diagnostic workflows and paves the way for future multimodal hematology-specific AI. The code and model weights are available at https://github.com/marrlab/GenBloom.