PhysioME: A Robust Multimodal Self-Supervised Framework for Physiological Signals with Missing Modalities

📄 arXiv: 2510.11110v1 📥 PDF

作者: Cheol-Hui Lee, Hwa-Yeon Lee, Min-Kyung Jung, Dong-Joo Kim

分类: cs.LG, cs.AI

发布日期: 2025-10-13

备注: 9 pages, 2 figures


💡 一句话要点

PhysioME:针对生理信号缺失模态的鲁棒多模态自监督学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生理信号处理 多模态学习 自监督学习 缺失模态 对比学习 掩码预测 医疗应用

📋 核心要点

  1. 现有方法通常假设所有模态都可用,但在模态缺失时性能显著下降,无法满足实际应用需求。
  2. PhysioME采用多模态自监督学习,结合对比学习和掩码预测,以应对缺失模态带来的挑战。
  3. 实验结果表明,PhysioME在各种缺失模态场景下表现出高度一致性和泛化能力,具有实际应用潜力。

📝 摘要(中文)

本文提出PhysioME,一个鲁棒的框架,旨在确保在缺失模态条件下依然具有可靠的性能。由于硬件限制或运动伪影,基于生理信号的医疗应用中经常出现模态缺失或损坏的情况。为了克服这一限制,PhysioME采用:(1)结合对比学习和掩码预测的多模态自监督学习方法;(2)一个定制的Dual-PathNeuroNet骨干网络,用于捕获每个生理信号模态的时间动态;(3)一个恢复解码器,用于重建缺失的模态token,从而能够灵活地处理不完整的输入。实验结果表明,PhysioME在各种缺失模态场景中实现了高度的一致性和泛化性能。这些发现突出了PhysioME作为一种可靠工具的潜力,可以支持在数据可用性不完善的真实环境中的临床决策。

🔬 方法详解

问题定义:论文旨在解决生理信号分析中常见的模态缺失问题。由于硬件限制、运动伪影等原因,实际应用中很难保证所有模态的数据都完整可用。现有方法大多假设所有模态都存在,当出现模态缺失时,性能会急剧下降,无法满足临床需求。

核心思路:PhysioME的核心思路是利用多模态自监督学习,即使在某些模态缺失的情况下,也能从剩余模态中学习到有效的表征。通过对比学习和掩码预测,模型能够学习到不同模态之间的关联性,并具备重建缺失模态的能力。

技术框架:PhysioME框架主要包含三个部分:Dual-PathNeuroNet骨干网络、多模态自监督学习模块和恢复解码器。Dual-PathNeuroNet用于提取各个模态的时序特征;多模态自监督学习模块结合对比学习和掩码预测,学习模态间的关联;恢复解码器用于重建缺失的模态token。整体流程是,输入生理信号,经过Dual-PathNeuroNet提取特征,然后进行自监督学习,最后利用恢复解码器重建缺失模态。

关键创新:PhysioME的关键创新在于其多模态自监督学习方法和恢复解码器。多模态自监督学习方法结合了对比学习和掩码预测,能够更有效地学习模态间的关联性。恢复解码器则能够重建缺失的模态token,使得模型能够处理不完整的输入。与现有方法相比,PhysioME在缺失模态的情况下具有更强的鲁棒性。

关键设计:Dual-PathNeuroNet采用双路径结构,分别处理不同模态的信号,更好地捕捉各自的时序动态。对比学习采用InfoNCE损失函数,最大化正样本对之间的相似度,最小化负样本对之间的相似度。掩码预测随机掩盖部分模态的token,然后利用模型预测被掩盖的token。恢复解码器采用Transformer结构,利用剩余模态的特征重建缺失的模态token。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,PhysioME在各种缺失模态场景中均表现出优异的性能。与现有方法相比,PhysioME在缺失模态的情况下能够保持较高的准确率和泛化能力。具体性能数据未知,但摘要强调了其在不同缺失模态场景下的一致性和泛化性能。

🎯 应用场景

PhysioME可应用于各种基于生理信号的医疗应用,例如疾病诊断、健康监测、睡眠分析等。尤其是在实际临床环境中,由于数据采集的限制,经常会出现模态缺失的情况,PhysioME的鲁棒性使其能够在这种情况下提供更可靠的决策支持。未来,PhysioME可以进一步扩展到更多模态和更复杂的任务中。

📄 摘要(原文)

Missing or corrupted modalities are common in physiological signal-based medical applications owing to hardware constraints or motion artifacts. However, most existing methods assume the availability of all modalities, resulting in substantial performance degradation in the absence of any modality. To overcome this limitation, this study proposes PhysioME, a robust framework designed to ensure reliable performance under missing modality conditions. PhysioME adopts: (1) a multimodal self-supervised learning approach that combines contrastive learning with masked prediction; (2) a Dual-PathNeuroNet backbone tailored to capture the temporal dynamics of each physiological signal modality; and (3) a restoration decoder that reconstructs missing modality tokens, enabling flexible processing of incomplete inputs. The experimental results show that PhysioME achieves high consistency and generalization performance across various missing modality scenarios. These findings highlight the potential of PhysioME as a reliable tool for supporting clinical decision-making in real-world settings with imperfect data availability.