Do Pathology Foundation Models Encode Disease Progression? A Pseudotime Analysis of Visual Representations
作者: Pritika Vig, Ren-Chin Wu, William Lotter
分类: cs.CV
发布日期: 2026-01-29
备注: 21 pages, 17 figures. Appendix included
💡 一句话要点
病理学预训练模型通过表征空间中的伪时间分析编码疾病进展
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 病理学 预训练模型 疾病进展 伪时间分析 表征学习
📋 核心要点
- 现有视觉模型在离散图像上训练,缺乏对底层连续疾病进展的理解,限制了其泛化能力和生物学解释性。
- 利用扩散伪时间方法,分析预训练模型表征空间中疾病状态的组织方式,探究其是否编码了连续的疾病进展轨迹。
- 实验表明,病理学特定模型能有效恢复疾病进展轨迹,且轨迹保真度与少样本分类性能高度相关,验证了模型对连续过程的编码能力。
📝 摘要(中文)
视觉预训练模型在离散采样的图像上训练后,在分类基准测试中表现出色,但其表征是否编码了训练数据背后的连续过程仍不清楚。这个问题在计算病理学中尤为重要,我们认为,如果模型的潜在表征能够隐式地捕捉到连续的疾病进展,那么模型就能更好地反映潜在的生物学特性,支持更强的泛化能力,并能够对与疾病转变相关的特征进行定量分析。本文使用扩散伪时间(diffusion pseudotime),一种从单细胞转录组学中推断发育轨迹的方法,来探究预训练模型是否在表征空间中沿着连贯的进展方向组织疾病状态。在四个癌症进展和六个模型中,我们发现所有特定于病理学的模型都恢复了显著超过零基线的轨迹排序,其中纯视觉模型实现了最高的保真度(在CRC-Serrated上τ> 0.78)。模型在参考疾病上的轨迹保真度排名能够很好地预测在预留疾病上的少样本分类性能(ρ= 0.92),探索性分析表明,细胞类型组成沿着推断的轨迹平滑变化,其模式与已知的基质重塑一致。总之,这些结果表明,视觉预训练模型可以从独立的静态观察中隐式地学习表示连续过程,并且轨迹保真度提供了对表征质量的补充度量,超越了下游性能。虽然本文是在病理学中演示的,但该框架可以应用于通过静态快照观察到连续过程的其他领域。
🔬 方法详解
问题定义:论文旨在解决视觉预训练模型是否能够编码疾病进展这一连续过程的问题。现有方法主要关注模型在分类等下游任务的性能,而忽略了模型对疾病内在连续性的理解,这限制了模型在病理学领域的应用,例如无法准确预测疾病发展趋势或识别关键的疾病转变特征。
核心思路:论文的核心思路是利用扩散伪时间(diffusion pseudotime)这一单细胞转录组学领域的方法,来分析视觉预训练模型在表征空间中对疾病状态的组织方式。通过计算疾病状态在表征空间中的伪时间,可以推断出疾病的进展轨迹,并评估模型是否能够捕捉到疾病的连续性。如果模型能够将疾病状态沿着连贯的进展方向组织,则说明模型能够隐式地学习表示连续过程。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择不同的癌症进展数据集和病理学预训练模型;2) 使用预训练模型提取图像的视觉表征;3) 利用扩散伪时间算法,基于视觉表征计算疾病状态的伪时间,构建疾病进展轨迹;4) 评估轨迹的保真度,即轨迹排序与真实疾病进展顺序的一致性;5) 分析细胞类型组成沿着推断轨迹的变化,验证轨迹的生物学合理性。
关键创新:论文的关键创新在于将单细胞转录组学中的扩散伪时间方法应用于分析视觉预训练模型的表征空间,从而揭示了模型对连续疾病进展的编码能力。这种方法提供了一种新的视角来评估视觉模型的表征质量,超越了传统的下游任务性能评估。
关键设计:论文的关键设计包括:1) 使用Spearman相关系数τ来量化轨迹保真度,τ值越高表示轨迹排序与真实疾病进展顺序越一致;2) 使用少样本分类任务来验证轨迹保真度与模型泛化能力之间的关系;3) 对细胞类型组成进行分析,以验证推断轨迹的生物学合理性。此外,论文还比较了不同预训练模型在轨迹保真度上的表现,并分析了模型结构和训练数据对结果的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所有病理学特定模型都能显著恢复疾病进展轨迹,其中纯视觉模型在CRC-Serrated数据集上达到了最高的保真度(τ> 0.78)。模型在参考疾病上的轨迹保真度排名能够很好地预测在预留疾病上的少样本分类性能(ρ= 0.92)。细胞类型组成分析表明,细胞类型组成沿着推断的轨迹平滑变化,其模式与已知的基质重塑一致。
🎯 应用场景
该研究成果可应用于计算病理学领域,帮助医生更准确地预测疾病发展趋势、识别关键的疾病转变特征,并辅助诊断和治疗决策。此外,该框架还可推广到其他领域,例如生物学、材料科学等,用于分析静态快照数据中的连续过程。
📄 摘要(原文)
Vision foundation models trained on discretely sampled images achieve strong performance on classification benchmarks, yet whether their representations encode the continuous processes underlying their training data remains unclear. This question is especially pertinent in computational pathology, where we posit that models whose latent representations implicitly capture continuous disease progression may better reflect underlying biology, support more robust generalization, and enable quantitative analyses of features associated with disease transitions. Using diffusion pseudotime, a method developed to infer developmental trajectories from single-cell transcriptomics, we probe whether foundation models organize disease states along coherent progression directions in representation space. Across four cancer progressions and six models, we find that all pathology-specific models recover trajectory orderings significantly exceeding null baselines, with vision-only models achieving the highest fidelities $(τ> 0.78$ on CRC-Serrated). Model rankings by trajectory fidelity on reference diseases strongly predict few-shot classification performance on held-out diseases ($ρ= 0.92$), and exploratory analysis shows cell-type composition varies smoothly along inferred trajectories in patterns consistent with known stromal remodeling. Together, these results demonstrate that vision foundation models can implicitly learn to represent continuous processes from independent static observations, and that trajectory fidelity provides a complementary measure of representation quality beyond downstream performance. While demonstrated in pathology, this framework could be applied to other domains where continuous processes are observed through static snapshots.