Can we generate portable representations for clinical time series data using LLMs?
作者: Zongliang Ji, Yifei Sun, Andre Amaral, Anna Goldenberg, Rahul G. Krishnan
分类: cs.LG
发布日期: 2026-03-25
备注: Accepted to the 14th International Conference on Learning Representations (ICLR 2026)
💡 一句话要点
利用LLM生成临床时间序列数据的可迁移表征,提升模型泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 临床时间序列 可迁移学习 患者表征 自然语言处理
📋 核心要点
- 临床模型在不同医院间泛化能力差,主要由于数据分布差异导致模型性能显著下降。
- 利用LLM将时间序列转化为自然语言摘要,再通过文本嵌入模型生成固定长度的患者表征。
- 实验表明,该方法在跨医院迁移时性能优于传统方法,且能提升少样本学习能力。
📝 摘要(中文)
临床机器学习模型的部署缓慢且脆弱,在一个医院有效的模型在另一个医院往往会因分布偏移而性能下降。本文研究了一个简单的问题:大型语言模型(LLM)能否创建可迁移的患者嵌入,即患者表征,使得在一个医院构建的下游预测器可以在其他地方使用,只需极少甚至无需重新训练和微调。为此,我们使用冻结的LLM将不规则的ICU时间序列映射到简洁的自然语言摘要,然后使用冻结的文本嵌入模型嵌入每个摘要,以获得固定长度的向量,作为各种下游预测器的输入。在三个队列(MIMIC-IV、HIRID、PPICU)上,针对多个临床预测和分类任务,我们发现该方法简单易用,且性能与使用网格插补、自监督表征学习和时间序列基础模型等方法在同分布数据上具有竞争力,同时在迁移到新医院时性能下降幅度较小。我们研究了提示设计对性能的影响,发现结构化提示对于降低预测模型的方差至关重要,而不会改变平均准确率。我们发现,使用这些可移植的表征可以改善少样本学习,并且相对于基线,不会增加年龄或性别的统计可恢复性,表明几乎没有额外的隐私风险。我们的工作表明,LLM有潜力作为工具,通过减少工程开销来实现生产级预测模型的可扩展部署。
🔬 方法详解
问题定义:现有临床机器学习模型在不同医院部署时,由于数据分布的差异,模型性能会显著下降,导致部署成本高昂且效果不佳。现有的时间序列处理方法,如插补、自监督学习和时间序列基础模型,虽然在特定数据集上表现良好,但在跨机构迁移时仍然面临挑战。因此,需要一种能够生成可迁移的患者表征的方法,以减少模型在不同医院之间的适应成本。
核心思路:本文的核心思路是利用大型语言模型(LLM)的强大文本理解和生成能力,将复杂的临床时间序列数据转化为简洁的自然语言摘要。然后,使用预训练的文本嵌入模型将这些摘要转化为固定长度的向量,作为下游预测模型的输入。这种方法的核心在于利用LLM学习到的通用语言知识,从而生成更具泛化能力的患者表征。
技术框架:整体框架包含两个主要阶段:1) 时间序列到文本的转换:使用预训练的LLM(冻结)将不规则的ICU时间序列数据转化为自然语言摘要。关键在于设计合适的prompt,引导LLM生成包含关键临床信息的摘要。2) 文本到向量的嵌入:使用预训练的文本嵌入模型(冻结)将生成的文本摘要嵌入到固定长度的向量空间中。这些向量作为下游预测模型的输入。下游预测模型可以是任何标准的分类或回归模型。
关键创新:该方法的主要创新在于利用LLM作为桥梁,将时间序列数据转化为自然语言,从而利用LLM学习到的通用知识来提升表征的泛化能力。与传统的直接处理时间序列数据的方法相比,该方法能够更好地适应不同医院之间的数据分布差异。此外,该方法通过冻结LLM和文本嵌入模型,降低了训练成本,并提高了模型的稳定性。
关键设计:关键设计包括:1) Prompt设计:设计结构化的prompt,引导LLM生成包含关键临床信息的摘要。实验表明,结构化prompt对于降低预测模型的方差至关重要。2) LLM和文本嵌入模型的选择:选择合适的预训练LLM和文本嵌入模型,以确保能够有效地提取临床信息并生成高质量的向量表征。3) 冻结LLM和文本嵌入模型:为了降低训练成本和提高模型稳定性,LLM和文本嵌入模型在训练过程中被冻结,只训练下游预测模型。
📊 实验亮点
实验结果表明,该方法在三个不同的ICU队列(MIMIC-IV、HIRID、PPICU)上,针对多个临床预测和分类任务,性能与传统的网格插补、自监督表征学习和时间序列基础模型具有竞争力。更重要的是,在跨医院迁移时,该方法的性能下降幅度明显小于其他方法,表明其具有更好的泛化能力。此外,结构化prompt的设计能够显著降低预测模型的方差,提高模型的稳定性。
🎯 应用场景
该研究成果可应用于临床预测模型的快速部署和迁移,尤其是在资源有限或数据异构性高的医疗环境中。通过生成可迁移的患者表征,可以减少模型在不同医院之间的适应成本,加速临床决策支持系统的普及。此外,该方法还可以应用于其他类型的时间序列数据,例如金融数据或物联网数据,以提升模型的泛化能力。
📄 摘要(原文)
Deploying clinical ML is slow and brittle: models that work at one hospital often degrade under distribution shifts at the next. In this work, we study a simple question -- can large language models (LLMs) create portable patient embeddings i.e. representations of patients enable a downstream predictor built on one hospital to be used elsewhere with minimal-to-no retraining and fine-tuning. To do so, we map from irregular ICU time series onto concise natural language summaries using a frozen LLM, then embed each summary with a frozen text embedding model to obtain a fixed length vector capable of serving as input to a variety of downstream predictors. Across three cohorts (MIMIC-IV, HIRID, PPICU), on multiple clinically grounded forecasting and classification tasks, we find that our approach is simple, easy to use and competitive with in-distribution with grid imputation, self-supervised representation learning, and time series foundation models, while exhibiting smaller relative performance drops when transferring to new hospitals. We study the variation in performance across prompt design, with structured prompts being crucial to reducing the variance of the predictive models without altering mean accuracy. We find that using these portable representations improves few-shot learning and does not increase demographic recoverability of age or sex relative to baselines, suggesting little additional privacy risk. Our work points to the potential that LLMs hold as tools to enable the scalable deployment of production grade predictive models by reducing the engineering overhead.