From Hazard Functions to Language Space: Cox-Supervised Distillation of Survival Risk into a Large Language Model
作者: Nicholas I-Hsien Kuo, Blanca Gallego, Louisa Jorm
分类: cs.LG
发布日期: 2026-06-08
💡 一句话要点
提出Cox监督蒸馏方法将生存风险转化为语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生存分析 Cox模型 语言模型 风险预测 文本生成 临床数据 模型微调
📋 核心要点
- 现有生存分析方法在处理复杂临床数据时,往往难以有效提取和表示生存风险信息。
- 本研究提出了一种将Cox模型与大型语言模型结合的创新方法,通过文本提示生成患者特定的生存风险。
- 实验结果表明,该模型在多个数据集上实现了良好的区分度和校准度,展示了其在生存风险预测中的潜力。
📝 摘要(中文)
本研究探讨了如何将Cox比例风险模型估计的事件发生时间风险信息转移至生成性大型语言模型。我们提出了一种基于文本的生存建模流程,将结构化临床协变量转换为文本提示,并对基于Qwen的大型语言模型进行微调,以生成特定患者的生存风险,使用Cox模型预测作为训练目标。在GBSG2、ACTG320和WHAS500数据集中,该模型在持出样本的区分度和校准度上表现出竞争力,尽管其训练为文本生成任务,而非传统的生存分析损失。进一步分析模型的隐藏状态几何,t-SNE可视化显示潜在空间中的平滑风险梯度,表明模型将生存风险表示为连续结构,而非孤立的风险类别。这些发现表明,大型语言模型能够内化生存风险结构,同时支持校准预测,为语言模型中的事件时间推理提供了一条途径。
🔬 方法详解
问题定义:本研究旨在解决如何将Cox比例风险模型的生存风险信息有效转移至大型语言模型的问题。现有方法在处理生存风险时,往往缺乏有效的文本表示和生成能力。
核心思路:论文的核心思路是将结构化的临床协变量转换为文本提示,并利用Qwen模型进行微调,以生成与患者相关的生存风险。这种设计使得模型能够在文本生成任务中学习生存风险的结构。
技术框架:整体架构包括数据预处理、文本提示生成、模型微调和风险预测四个主要模块。首先,将临床数据转化为文本提示,然后对Qwen模型进行微调,最后生成患者特定的生存风险预测。
关键创新:最重要的技术创新点在于将生存风险建模转化为文本生成任务,突破了传统生存分析方法的限制,使得模型能够在潜在空间中平滑地表示风险。
关键设计:在模型训练中,采用了特定的损失函数来优化文本生成质量,并通过t-SNE可视化分析隐藏状态,确保模型能够有效捕捉生存风险的连续性特征。该方法的参数设置和网络结构经过精心设计,以提高模型的预测性能。
🖼️ 关键图片
📊 实验亮点
实验结果显示,该模型在GBSG2、ACTG320和WHAS500数据集上实现了良好的持出样本区分度和校准度,尽管训练为文本生成任务,仍展现出与传统生存分析方法相当的性能。这表明大型语言模型在生存风险预测中的有效性和潜力。
🎯 应用场景
该研究的潜在应用领域包括医疗健康、临床决策支持和个性化治疗方案制定。通过将生存风险信息有效转化为语言模型,可以为医生提供更为精准的患者风险评估,进而改善临床决策的质量和效率。未来,该方法有望在其他领域的时间事件预测中发挥重要作用。
📄 摘要(原文)
We investigate whether information about time-to-event risk estimated by a Cox proportional hazards model can be transferred into a generative large language model. We propose a text-based survival modelling pipeline in which structured clinical covariates are converted into text prompts and a Qwen-based large language model is fine-tuned to generate patient-specific survival risk using Cox model predictions as a training target. Across GBSG2, ACTG320, and WHAS500, the model achieves competitive held-out discrimination and calibration despite being trained as a text-generation task rather than with a conventional survival-analysis loss. We further analyse the geometry of the model's hidden states, where t-SNE visualisations reveal smooth risk gradients in latent space, suggesting that the model represents survival risk as a continuous structure rather than isolated risk categories. Together, these findings suggest that large language models can internalise survival-risk structure while supporting calibrated prediction, providing a route towards time-to-event reasoning in language models.