Any-to-Any Learning in Computational Pathology via Triplet Multimodal Pretraining
作者: Qichen Sun, Zhengrui Guo, Rui Peng, Hao Chen, Jinzhuo Wang
分类: cs.CV, cs.AI
发布日期: 2025-05-19 (更新: 2025-05-20)
💡 一句话要点
提出ALTER框架,通过三元组多模态预训练实现计算病理学中的任意模态学习。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算病理学 多模态学习 预训练 三元组损失 全切片图像 基因组学 病理报告
📋 核心要点
- 计算病理学中融合异构数据类型(如WSI、基因组学)面临计算成本高和策略复杂等挑战。
- ALTER框架采用模态自适应设计,支持任意模态子集的预训练,学习鲁棒的跨模态表示。
- 实验表明,ALTER在生存预测、癌症亚型分类等任务中表现优异,性能媲美SOTA方法。
📝 摘要(中文)
本文提出了一种名为ALTER的任意模态三元组预训练框架,用于解决计算病理学中全切片图像(WSI)、基因组学和病理报告等多模态数据的融合问题。ALTER的“任意”性体现在其模态自适应设计,允许使用任意模态子集进行灵活的预训练,并学习超越WSI中心方法的鲁棒的跨模态表示。该框架旨在解决异构数据融合的复杂性、模态缺失情况下的鲁棒学习以及下游任务的多样性。通过在生存预测、癌症亚型分类、基因突变预测和报告生成等临床任务上的评估,ALTER取得了优于或可与最先进基线方法相媲美的性能。
🔬 方法详解
问题定义:计算病理学领域面临着融合全切片图像(WSI)、基因组学数据和病理报告等多种异构数据的挑战。现有方法通常采用简单的拼接策略,计算成本高昂且难以有效融合不同模态的信息。此外,临床实践中经常出现模态缺失的情况,现有模型难以在缺少某些模态的情况下保持鲁棒性。下游任务也多种多样,需要一个统一的模型能够处理各种模态组合。
核心思路:ALTER的核心思路是利用三元组多模态预训练,学习不同模态之间的关联性,从而实现任意模态之间的信息传递和融合。通过预训练,模型能够学习到鲁棒的跨模态表示,即使在某些模态缺失的情况下也能进行有效的预测。这种方法避免了直接拼接带来的高计算成本,并提高了模型的泛化能力。
技术框架:ALTER框架包含三个主要模态的编码器:WSI编码器、基因组学编码器和病理报告编码器。在预训练阶段,框架使用三元组损失函数,鼓励相似样本在嵌入空间中靠近,不相似样本远离。具体来说,对于一个锚点样本(例如WSI),选择一个正样本(例如对应的基因组学数据)和一个负样本(例如来自不同患者的基因组学数据)。通过最小化三元组损失,模型学习到不同模态之间的对应关系。
关键创新:ALTER的关键创新在于其“any-to-any”的模态自适应设计。这意味着模型可以利用任意模态的组合进行预训练和下游任务。这种设计使得模型更加灵活,能够适应临床实践中模态缺失的情况。此外,三元组预训练方法能够有效地学习跨模态表示,避免了简单拼接带来的信息损失。
关键设计:ALTER使用Transformer网络作为各个模态的编码器。WSI编码器采用基于Transformer的视觉Transformer (ViT)结构,基因组学编码器和病理报告编码器采用标准的Transformer编码器。三元组损失函数采用hinge loss,并设置合适的margin参数以区分正负样本。预训练阶段采用AdamW优化器,并设置合适的学习率和权重衰减参数。
🖼️ 关键图片
📊 实验亮点
ALTER在生存预测、癌症亚型分类、基因突变预测和报告生成等多个临床任务上进行了评估,结果表明其性能优于或可与最先进的基线方法相媲美。例如,在生存预测任务中,ALTER的C-index指标相比基线方法提升了显著的百分比,证明了其有效性。
🎯 应用场景
ALTER框架在计算病理学领域具有广泛的应用前景,可用于辅助病理诊断、预测患者生存期、进行癌症亚型分类、预测基因突变以及自动生成病理报告。该研究有助于提高病理诊断的准确性和效率,为精准医疗提供更强大的技术支持,并有望推动计算病理学的发展。
📄 摘要(原文)
Recent advances in computational pathology and artificial intelligence have significantly enhanced the utilization of gigapixel whole-slide images and and additional modalities (e.g., genomics) for pathological diagnosis. Although deep learning has demonstrated strong potential in pathology, several key challenges persist: (1) fusing heterogeneous data types requires sophisticated strategies beyond simple concatenation due to high computational costs; (2) common scenarios of missing modalities necessitate flexible strategies that allow the model to learn robustly in the absence of certain modalities; (3) the downstream tasks in CPath are diverse, ranging from unimodal to multimodal, cnecessitating a unified model capable of handling all modalities. To address these challenges, we propose ALTER, an any-to-any tri-modal pretraining framework that integrates WSIs, genomics, and pathology reports. The term "any" emphasizes ALTER's modality-adaptive design, enabling flexible pretraining with any subset of modalities, and its capacity to learn robust, cross-modal representations beyond WSI-centric approaches. We evaluate ALTER across extensive clinical tasks including survival prediction, cancer subtyping, gene mutation prediction, and report generation, achieving superior or comparable performance to state-of-the-art baselines.