Survival In-Context: Prior-fitted In-context Learning Tabular Foundation Model for Survival Analysis

📄 arXiv: 2603.29475v1 📥 PDF

作者: Dmitrii Seletkov, Paul Hager, Rickmer Braren, Daniel Rueckert, Raphael Rehms

分类: cs.LG

发布日期: 2026-03-31


💡 一句话要点

提出Survival In-Context,一种基于先验拟合的表格生存分析上下文学习基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生存分析 上下文学习 先验拟合 表格数据 医学应用

📋 核心要点

  1. 生存分析面临数据量少、数据删失和协变量异质性等挑战,传统机器学习方法难以有效应对。
  2. 论文提出Survival In-Context (SIC)模型,通过在合成数据上预训练,实现无需微调的生存预测。
  3. 实验表明,SIC在真实生存数据集上表现优异,尤其在中等规模数据集中,性能超越传统和深度模型。

📝 摘要(中文)

生存分析在许多医学应用中至关重要,但由于数据有限、存在删失以及表格协变量的异质性,对于现代机器学习而言仍然具有挑战性。虽然依赖于在大量合成数据集上预训练模型的先验拟合范式最近促进了用于分类和回归的表格基础模型的发展,但其对事件时间建模的适用性仍不清楚。我们提出了一个灵活的生存数据生成框架,该框架定义了一个丰富的生存先验,可以显式控制协变量和时间-事件分布。在此先验的基础上,我们引入了Survival In-Context (SIC),这是一种用于生存分析的先验拟合上下文学习模型,该模型完全在合成数据上进行预训练。SIC在单个前向传递中产生个体化的生存预测,无需特定于任务的训练或超参数调整。在对真实生存数据集的广泛评估中,SIC与经典和深度生存模型相比,实现了有竞争力或更优越的性能,尤其是在中等规模的数据情况下,突出了先验拟合基础模型在生存分析中的前景。代码将在发表后提供。

🔬 方法详解

问题定义:生存分析旨在预测事件发生的时间,在医学等领域有重要应用。现有方法面临数据量不足、数据删失以及协变量异质性等问题,导致模型泛化能力受限。传统方法需要针对特定任务进行训练和调参,缺乏通用性。

核心思路:论文的核心思路是利用先验拟合范式,即首先在一个大规模的合成数据集上预训练模型,使其学习到通用的生存分析知识,然后直接应用于真实数据集,无需额外的训练或调参。这种方法可以有效解决数据量不足的问题,并提高模型的泛化能力。

技术框架:SIC模型的整体框架包括两个主要阶段:1) 生存数据生成阶段:设计一个灵活的生存数据生成框架,定义一个丰富的生存先验,可以显式控制协变量和时间-事件分布,生成大规模的合成数据集。2) 上下文学习阶段:使用生成的合成数据集预训练SIC模型,使其学习到生存分析的通用知识。在预测阶段,SIC模型直接接收真实数据集的输入,并输出个体化的生存预测。

关键创新:SIC模型的关键创新在于将先验拟合范式应用于生存分析领域,并结合上下文学习的思想,实现了无需微调的生存预测。与传统方法相比,SIC模型不需要针对特定任务进行训练和调参,具有更好的通用性和泛化能力。此外,SIC模型在单个前向传递中即可产生个体化的生存预测,效率更高。

关键设计:生存数据生成框架允许用户显式控制协变量和时间-事件分布,从而生成多样化的合成数据集。SIC模型采用Transformer架构,利用自注意力机制学习协变量之间的关系。损失函数采用常用的生存分析损失函数,如Cox比例风险损失函数。具体参数设置未知,代码发布后可进一步分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SIC模型在多个真实生存数据集上进行了评估,结果表明,SIC模型在性能上与经典和深度生存模型相比具有竞争力,甚至更优越。尤其是在中等规模的数据集上,SIC模型的优势更加明显。这表明,基于先验拟合的上下文学习方法在生存分析领域具有很大的潜力。

🎯 应用场景

该研究成果可广泛应用于医疗健康领域,例如疾病风险预测、患者生存时间估计、个性化治疗方案制定等。通过利用大规模合成数据进行预训练,该方法能够有效解决真实医疗数据稀缺的问题,提高生存分析模型的准确性和泛化能力,为临床决策提供更可靠的依据。未来,该方法有望推广到其他小样本、高维度的表格数据分析任务中。

📄 摘要(原文)

Survival analysis is crucial for many medical applications but remains challenging for modern machine learning due to limited data, censoring, and the heterogeneity of tabular covariates. While the prior-fitted paradigm, which relies on pretraining models on large collections of synthetic datasets, has recently facilitated tabular foundation models for classification and regression, its suitability for time-to-event modeling remains unclear. We propose a flexible survival data generation framework that defines a rich survival prior with explicit control over covariates and time-event distributions. Building on this prior, we introduce Survival In-Context (SIC), a prior-fitted in-context learning model for survival analysis that is pretrained exclusively on synthetic data. SIC produces individualized survival prediction in a single forward pass, requiring no task-specific training or hyperparameter tuning. Across a broad evaluation on real-world survival datasets, SIC achieves competitive or superior performance compared to classical and deep survival models, particularly in medium-sized data regimes, highlighting the promise of prior-fitted foundation models for survival analysis. The code will be made available upon publication.