MILM: Large Language Models for Multimodal Irregular Time Series with Informative Sampling

作者: Hsing-Huan Chung, Shijun Li, Yoav Wald, Xing Han, Suchi Saria, Joydeep Ghosh

分类: cs.LG

发布日期: 2026-05-13

💡 一句话要点

MILM：利用LLM和信息丰富的采样处理多模态非规则时间序列，提升EHR分类性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态时间序列 非规则采样 大型语言模型 电子健康记录 XML格式 两阶段训练 采样模式 数据缺失

📋 核心要点

现有方法难以有效利用多模态非规则时间序列中蕴含的采样模式信息，限制了预测性能。
MILM将MITS转换为XML格式，利用LLM强大的建模能力，并通过两阶段训练策略学习采样模式和观测值。
实验表明，MILM在多个EHR数据集上取得了最佳或次佳的平均性能，验证了采样模式的预测价值。

📝 摘要（中文）

多模态非规则时间序列(MITS)包含来自异构数值和文本通道的异步和非规则采样观测。例如，在医疗保健中，患者的电子健康记录(EHR)包括不规则的实验室测量和临床笔记。观测的不规则时间和通道模式与数值和文本内容一起携带预测信号。大型语言模型(LLM)是处理这种异构数据的天然选择，因为它们具有跨越文本和数值领域的广泛预训练知识。我们引入了MILM(多模态非规则时间序列语言模型)，它将MITS表示为可扩展标记语言(XML)格式的时间排序三元组，并通过两阶段策略微调LLM用于MITS分类。第一阶段训练值被编辑的MITS，仅从采样模式进行预测，第二阶段训练完整的MITS，以联合建模采样模式和观测值。我们的两阶段模型(MILM-2S)及其单阶段对应模型(MILM-Direct)在多个EHR数据集上实现了最佳和次佳的平均性能。进一步的值编辑评估证实，采样模式携带预测信号，并且MILM-2S学会了利用它们。在我们引入的值待定评估中，其中一些值在预测时不可用，与标准评估相比，MILM-2S的性能优于MILM-Direct的幅度更大。对于MILM-2S，保留值待定观测的时间和通道作为额外的采样信息，进一步提高了院内死亡率预测。

🔬 方法详解

问题定义：论文旨在解决多模态非规则时间序列（MITS）的分类问题，例如电子健康记录（EHR）中的实验室测量和临床笔记。现有方法通常难以有效利用MITS中包含的不规则采样模式信息，导致预测性能受限。如何充分挖掘采样模式中的预测信号是该研究的核心问题。

核心思路：论文的核心思路是将MITS转换为LLM能够处理的格式，并利用LLM强大的建模能力来学习采样模式和观测值之间的关系。通过将MITS表示为XML格式的时间排序三元组，并设计两阶段训练策略，使模型能够首先学习采样模式，然后再联合建模采样模式和观测值。

技术框架：MILM的整体框架包括数据预处理、XML格式转换、LLM微调和预测四个主要阶段。首先，将MITS数据进行清洗和整理。然后，将MITS转换为XML格式的时间排序三元组，其中包含时间戳、通道信息和观测值。接下来，使用两阶段训练策略微调LLM。最后，使用微调后的LLM进行MITS分类预测。

关键创新：该论文的关键创新在于：1) 提出了一种将MITS转换为XML格式的方法，使其能够被LLM处理；2) 设计了一种两阶段训练策略，首先学习采样模式，然后再联合建模采样模式和观测值，从而更有效地利用了MITS中的信息；3) 引入了值待定评估，更真实地反映了实际应用场景中的数据缺失情况。

关键设计：MILM使用预训练的LLM作为 backbone，并对其进行微调。两阶段训练策略包括：第一阶段，训练值被编辑的MITS，目标是仅从采样模式进行预测；第二阶段，训练完整的MITS，目标是联合建模采样模式和观测值。在值待定评估中，保留值待定观测的时间和通道作为额外的采样信息，以提高预测性能。损失函数采用交叉熵损失函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MILM-2S在多个EHR数据集上取得了最佳的平均性能，优于其他基线模型。在值待定评估中，MILM-2S的性能明显优于MILM-Direct，表明其能够更好地处理数据缺失情况。此外，保留值待定观测的时间和通道信息可以进一步提高院内死亡率预测的准确性。

🎯 应用场景

MILM在医疗健康领域具有广泛的应用前景，例如疾病诊断、预后预测、患者风险评估等。通过分析电子健康记录中的多模态非规则时间序列数据，MILM可以帮助医生更准确地了解患者的病情，并制定更有效的治疗方案。此外，MILM还可以应用于其他领域，例如金融风险管理、工业故障诊断等。

📄 摘要（原文）

Multimodal irregular time series (MITS) consist of asynchronous and irregularly sampled observations from heterogeneous numerical and textual channels. In healthcare, for example, patients' electronic health records (EHR) include irregular lab measurements and clinical notes. The irregular timing and channel patterns of observations carry predictive signal alongside the numerical values and textual content. LLMs are natural candidates for processing such heterogeneous data, given their extensive pretrained knowledge spanning textual and numerical domains. We introduce MILM (Multimodal Irregular time series Language Model), which represents MITS as time-ordered triplets in Extensible Markup Language (XML) format and fine-tunes an LLM through a two-stage strategy for MITS classification. The first stage trains on value-redacted MITS to predict from sampling patterns alone, and the second stage trains on full MITS to jointly model sampling patterns and observed values. Our two-stage model (MILM-2S) and its single-stage counterpart (MILM-Direct) achieve the best and second-best average performance on multiple EHR datasets. Further value redaction evaluations confirm that sampling patterns carry predictive signal and that MILM-2S learns to exploit them. In the value pending evaluation we introduce, where some values are unavailable at prediction time, MILM-2S outperforms MILM-Direct by a larger margin compared to standard evaluation. For MILM-2S, preserving the time and channel of value-pending observations as additional sampling information further improves in-hospital mortality prediction.

MILM: Large Language Models for Multimodal Irregular Time Series with Informative Sampling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理