Multimodal Forecasting of Sparse Intraoperative Hypotension Events Powered by Language Model
作者: Jintao Zhang, Zirui Liu, Mingyue Cheng, Shilong Zhang, Tingyue Pan, Yitong zhou, Qi Liu, Yanhu Xie
分类: cs.CL, cs.AI
发布日期: 2025-05-28 (更新: 2025-07-22)
🔗 代码/项目: GITHUB
💡 一句话要点
提出IOHFuseLM,利用多模态语言模型预测稀疏的术中低血压事件。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 术中低血压预测 多模态融合 语言模型 领域自适应 时间序列分析
📋 核心要点
- 术中低血压事件稀疏,且患者数据异构,现有方法难以有效整合静态和动态信息进行准确预测。
- IOHFuseLM利用多模态语言模型,通过领域自适应预训练和任务微调,提升模型对低血压模式的敏感性和区分能力。
- 实验结果表明,IOHFuseLM在识别IOH事件方面优于现有基线方法,验证了其在临床决策支持中的潜力。
📝 摘要(中文)
术中低血压(IOH)在全身麻醉下频繁发生,与心肌损伤和死亡率增加等不良后果密切相关。尽管其重要性,IOH预测受到事件稀疏性和整合不同患者的静态和动态数据的挑战的阻碍。本文提出了一个多模态语言模型框架IOHFuseLM。为了准确识别和区分稀疏的低血压事件,我们采用了一种两阶段训练策略。第一阶段涉及在通过扩散方法增强的IOH生理时间序列上进行领域自适应预训练,从而提高模型对与低血压相关的模式的敏感性。随后,在原始临床数据集上执行任务微调,以进一步增强区分正常血压状态和低血压状态的能力。为了实现每个患者的多模态融合,我们将结构化的临床描述与相应的生理时间序列在token级别对齐。这种对齐使模型能够捕获个体化的时间模式以及它们相应的临床语义。此外,我们将静态患者属性转换为结构化文本以丰富个性化信息。在两个术中数据集上的实验评估表明,IOHFuseLM在准确识别IOH事件方面优于已建立的基线,突出了其在临床决策支持场景中的适用性。我们的代码已公开发布,以提高可重复性。
🔬 方法详解
问题定义:论文旨在解决术中低血压(IOH)事件预测问题。现有方法难以有效处理IOH事件的稀疏性,以及整合来自不同患者的静态(如年龄、病史)和动态(如生理时间序列)数据。这些痛点导致预测精度不足,限制了临床应用。
核心思路:论文的核心思路是利用多模态语言模型,将生理时间序列、临床描述和静态患者属性进行有效融合。通过领域自适应预训练增强模型对低血压相关模式的敏感性,再通过任务微调提升区分正常血压和低血压状态的能力。这种设计旨在克服数据稀疏性和异构性带来的挑战。
技术框架:IOHFuseLM框架包含以下主要阶段:1) 数据预处理:将生理时间序列、临床描述和静态患者属性转换为token序列。2) 领域自适应预训练:在增强的IOH生理时间序列上进行预训练,提高模型对低血压模式的敏感性。3) 任务微调:在原始临床数据集上进行微调,优化模型区分正常血压和低血压状态的能力。4) 多模态融合:在token级别对齐临床描述和生理时间序列,并整合静态患者属性信息。
关键创新:最重要的技术创新点在于多模态融合策略和两阶段训练方法。传统方法通常独立处理不同模态的数据,而IOHFuseLM通过token级别的对齐,实现了更细粒度的信息融合。两阶段训练策略则有效解决了数据稀疏性问题,提升了模型性能。
关键设计:在领域自适应预训练阶段,论文使用了扩散方法来增强IOH生理时间序列,从而增加了训练数据的多样性。在多模态融合阶段,静态患者属性被转换为结构化文本,以便与动态数据进行统一处理。损失函数的设计可能包括交叉熵损失或Focal Loss等,以优化模型对稀疏事件的预测能力(具体细节论文中可能未明确说明)。网络结构基于Transformer架构,利用其强大的序列建模能力。
🖼️ 关键图片
📊 实验亮点
IOHFuseLM在两个术中数据集上进行了评估,实验结果表明其在准确识别IOH事件方面优于现有基线方法。具体性能数据和提升幅度在论文中给出,表明该方法在实际应用中具有显著优势。代码已开源,方便研究人员复现和进一步改进。
🎯 应用场景
该研究成果可应用于临床决策支持系统,帮助医生更准确地预测术中低血压事件,从而采取及时干预措施,降低患者不良预后风险。未来,该方法有望扩展到其他医疗场景,例如重症监护和远程患者监测,实现更智能化的健康管理。
📄 摘要(原文)
Intraoperative hypotension (IOH) frequently occurs under general anesthesia and is strongly linked to adverse outcomes such as myocardial injury and increased mortality. Despite its significance, IOH prediction is hindered by event sparsity and the challenge of integrating static and dynamic data across diverse patients. In this paper, we propose \textbf{IOHFuseLM}, a multimodal language model framework. To accurately identify and differentiate sparse hypotensive events, we leverage a two-stage training strategy. The first stage involves domain adaptive pretraining on IOH physiological time series augmented through diffusion methods, thereby enhancing the model sensitivity to patterns associated with hypotension. Subsequently, task fine-tuning is performed on the original clinical dataset to further enhance the ability to distinguish normotensive from hypotensive states. To enable multimodal fusion for each patient, we align structured clinical descriptions with the corresponding physiological time series at the token level. Such alignment enables the model to capture individualized temporal patterns alongside their corresponding clinical semantics. In addition, we convert static patient attributes into structured text to enrich personalized information. Experimental evaluations on two intraoperative datasets demonstrate that IOHFuseLM outperforms established baselines in accurately identifying IOH events, highlighting its applicability in clinical decision support scenarios. Our code is publicly available to promote reproducibility at https://github.com/zjt-gpu/IOHFuseLM.