Multi-Scale and Multi-Modal Contrastive Learning Network for Biomedical Time Series
作者: Hongbo Guo, Xinzi Xu, Hao Wu, Guoxing Wang
分类: cs.LG, cs.AI
发布日期: 2023-12-06
备注: 4 pages, 3 figures, submitted to ICASSP 2024
💡 一句话要点
提出多尺度多模态对比学习网络MBSL,提升生物医学时间序列表征学习的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多模态学习 对比学习 生物医学时间序列 表征学习 多尺度特征提取
📋 核心要点
- 现有方法忽略了多模态生物医学时间序列中模态间的差异,导致表征学习的鲁棒性不足。
- MBSL网络通过模态间距离分组数据,并利用多尺度特征提取和跨模态对比学习来解决上述问题。
- 实验结果表明,MBSL在多个生物医学应用中显著优于现有方法,例如呼吸频率预测和人类活动识别。
📝 摘要(中文)
多模态生物医学时间序列(MBTS)数据提供了生理状态的全面视图,在各种生物医学应用中具有重要意义。由于固有的噪声和不同模态之间的分布差距,MBTS建模可能很复杂。虽然已经开发了各种深度学习模型来学习MBTS的表征,但由于忽略了模态间的变化,它们在鲁棒性方面仍然不足。本文提出了一种多尺度和多模态生物医学时间序列表征学习(MBSL)网络,该网络采用对比学习来迁移这些变化。首先,MBTS基于模态间距离进行分组,然后每个具有最小模态内变化的组可以通过单独的编码器有效地建模。此外,为了增强多尺度特征提取(编码器),设计了各种patch长度和mask比例,以分别生成具有不同尺度和不同上下文视角的语义信息的tokens。最后,提出了跨模态对比学习,以最大化模态间组之间的一致性,保持有用的信息并消除噪声。针对四个生物医学应用的实验表明,MBSL优于最先进的模型,在呼吸频率方面平均误差(MAE)降低了33.9%,在运动心率方面MAE降低了13.8%,在人类活动识别方面准确率提高了1.41%,在阻塞性睡眠呼吸暂停低通气综合征方面F1-score提高了1.14%。
🔬 方法详解
问题定义:论文旨在解决多模态生物医学时间序列(MBTS)表征学习中,由于模态间差异和噪声导致的鲁棒性不足问题。现有方法通常忽略模态间的变化,无法有效提取和利用不同模态之间的互补信息,导致模型性能受限。
核心思路:论文的核心思路是利用对比学习,通过缩小模态内差异,增大模态间差异,从而学习到更鲁棒和具有判别性的MBTS表征。具体来说,首先基于模态间距离对数据进行分组,使得每个组内的模态差异最小化。然后,利用多尺度特征提取增强编码器对不同粒度信息的捕捉能力。最后,通过跨模态对比学习,促使不同模态的表征在语义空间中对齐,从而提高模型的泛化能力。
技术框架:MBSL网络主要包含三个阶段:1) 数据分组:基于模态间距离将MBTS数据分组,确保组内模态差异最小;2) 多尺度特征提取:使用具有不同patch长度和mask比例的编码器,提取不同尺度的特征;3) 跨模态对比学习:通过对比学习损失,最大化不同模态组之间表征的一致性。
关键创新:论文的关键创新在于:1) 提出了一种基于模态间距离的数据分组策略,有效降低了组内模态差异;2) 设计了一种多尺度特征提取方法,能够捕捉不同粒度的语义信息;3) 引入了跨模态对比学习,促使不同模态的表征在语义空间中对齐,提高了模型的鲁棒性。与现有方法相比,MBSL能够更好地处理模态间的差异和噪声,从而学习到更有效的MBTS表征。
关键设计:在数据分组阶段,使用了基于欧氏距离的聚类算法。在多尺度特征提取阶段,patch长度设置为[8, 16, 32],mask比例设置为[0.1, 0.3, 0.5]。跨模态对比学习使用了InfoNCE损失函数,温度系数设置为0.1。
📊 实验亮点
实验结果表明,MBSL在四个生物医学应用中均取得了显著的性能提升。在呼吸频率预测方面,MAE降低了33.9%;在运动心率预测方面,MAE降低了13.8%;在人类活动识别方面,准确率提高了1.41%;在阻塞性睡眠呼吸暂停低通气综合征方面,F1-score提高了1.14%。这些结果表明,MBSL能够有效地学习MBTS的表征,并优于现有的最先进模型。
🎯 应用场景
该研究成果可广泛应用于生物医学领域,例如呼吸频率监测、运动心率预测、人类活动识别和睡眠呼吸暂停综合征诊断等。通过更准确地理解和分析多模态生物医学时间序列数据,可以为临床决策提供更可靠的依据,并促进个性化医疗的发展。未来,该方法有望扩展到其他类型的多模态数据分析任务中。
📄 摘要(原文)
Multi-modal biomedical time series (MBTS) data offers a holistic view of the physiological state, holding significant importance in various bio-medical applications. Owing to inherent noise and distribution gaps across different modalities, MBTS can be complex to model. Various deep learning models have been developed to learn representations of MBTS but still fall short in robustness due to the ignorance of modal-to-modal variations. This paper presents a multi-scale and multi-modal biomedical time series representation learning (MBSL) network with contrastive learning to migrate these variations. Firstly, MBTS is grouped based on inter-modal distances, then each group with minimum intra-modal variations can be effectively modeled by individual encoders. Besides, to enhance the multi-scale feature extraction (encoder), various patch lengths and mask ratios are designed to generate tokens with semantic information at different scales and diverse contextual perspectives respectively. Finally, cross-modal contrastive learning is proposed to maximize consistency among inter-modal groups, maintaining useful information and eliminating noises. Experiments against four bio-medical applications show that MBSL outperforms state-of-the-art models by 33.9% mean average errors (MAE) in respiration rate, by 13.8% MAE in exercise heart rate, by 1.41% accuracy in human activity recognition, and by 1.14% F1-score in obstructive sleep apnea-hypopnea syndrome.