Compact Latent Manifold Translation: A Parameter-Efficient Foundation Model for Cross-Modal and Cross-Frequency Physiological Signal Synthesis

📄 arXiv: 2605.13248v1 📥 PDF

作者: Bo Cui, Xiaowen Song, Yaowen Zhang, Shunzhe Zhang, B. J. F. van Beijnum, Monique Tabak, Ying Wang

分类: eess.SP, cs.AI

发布日期: 2026-05-13


💡 一句话要点

提出紧凑潜在流形转换(CLMT),用于生理信号跨模态和跨频率合成,实现边缘设备部署。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生理信号合成 跨模态转换 跨频率超分辨率 离散潜在空间 向量量化

📋 核心要点

  1. 现有生理信号分析方法受限于模态和频率差异,传统连续潜在空间模型存在模态纠缠和计算成本高等问题。
  2. CLMT通过两阶段离散转换范式,利用分层残差向量量化解耦信号,并使用上下文提示的潜在转换器进行跨模态映射。
  3. 实验表明,CLMT模型在跨模态合成和跨频率超分辨率任务中显著优于现有方法,且参数量极小,利于边缘部署。

📝 摘要(中文)

生理时间序列(如心电图ECG和光电容积脉搏波PPG)的分析一直受到异构记录设备造成的模态和频率差距的阻碍。现有的基础模型通常依赖于连续潜在空间,这经常导致严重的模态纠缠,缺乏高保真跨频率生成能力,并带来高计算成本,从而禁止边缘设备部署。本文提出了一种高度参数高效(0.09B)的统一框架——紧凑潜在流形转换(CLMT),通过一种新颖的两阶段离散转换范式来弥合这些差距。首先,我们引入了一种利用分层残差向量量化(RVQ)的通用Tokenizer,将异构信号解耦为孤立的、结构良好的离散潜在流形,有效地防止了模态间的干扰。其次,一个上下文提示的潜在转换器通过整合静态生理先验知识,将这些离散token跨模态映射,将复杂的信号合成重新定义为一个纯粹的潜在序列转换任务。广泛的评估表明,我们的0.09B模型显著优于大规模基线。在跨模态PPG到ECG合成中,它解决了时间相位漂移,并将临床R峰检测F1分数从0.37(基线)显著提高到0.83。此外,在极端的跨频率超分辨率(25Hz到100Hz)中,它成功地恢复了高频诊断标志,实现了前所未有的0.9956的Pearson相关性。通过以一小部分计算足迹学习生物信号的通用离散语言,我们的方法为边缘可部署的多模态医疗基础模型开辟了一条新的道路。

🔬 方法详解

问题定义:论文旨在解决生理信号(如ECG和PPG)由于采集设备差异导致的模态和频率gap问题。现有方法,特别是基于连续潜在空间的基础模型,存在模态纠缠严重、跨频率生成能力不足以及计算成本过高等痛点,难以在边缘设备上部署。

核心思路:论文的核心思路是将生理信号的跨模态和跨频率转换问题转化为离散潜在空间的序列翻译问题。通过学习一种通用的离散语言来表示不同模态和频率的生理信号,并利用转换器模型实现这些离散表示之间的映射。这种方法旨在解耦模态信息,降低计算复杂度,并提高生成质量。

技术框架:CLMT框架包含两个主要阶段:1) 通用Tokenizer:使用分层残差向量量化(RVQ)将不同模态和频率的生理信号编码为离散的token序列,形成结构良好的离散潜在流形。2) 上下文提示的潜在转换器:利用Transformer模型,将源模态的离散token序列翻译成目标模态的离散token序列,同时整合静态生理先验知识作为上下文提示。

关键创新:该论文的关键创新在于:1) 离散潜在空间表示:使用RVQ将连续的生理信号转换为离散的token序列,有效解耦了模态信息,避免了模态纠缠。2) 上下文提示的潜在转换:将静态生理先验知识融入到Transformer模型的翻译过程中,提高了生成信号的生理合理性。3) 参数高效性:该模型仅使用0.09B参数,即可达到甚至超过大规模基线的性能。

关键设计:1) 分层残差向量量化(RVQ):通过多层量化,逐步逼近原始信号,提高重建质量。2) 上下文提示:将静态生理先验知识(例如,心率范围)编码为可学习的嵌入向量,并将其添加到Transformer模型的输入中。3) 损失函数:使用重建损失和对抗损失来训练Tokenizer和Translator,以提高生成信号的质量和真实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CLMT模型在跨模态PPG到ECG合成中,将R峰检测F1分数从基线的0.37显著提高到0.83。在跨频率超分辨率(25Hz到100Hz)任务中,实现了0.9956的Pearson相关性,成功恢复了高频诊断标志。同时,该模型仅使用0.09B参数,远小于现有基础模型,展现了极高的参数效率。

🎯 应用场景

该研究成果可应用于远程医疗、可穿戴设备健康监测、以及临床辅助诊断等领域。通过低成本的边缘设备,实现高质量的生理信号合成和分析,有助于提高医疗服务的可及性和效率。未来,该技术有望扩展到更多类型的生理信号和临床应用场景。

📄 摘要(原文)

The analysis of physiological time series, such as electrocardiograms (ECG) and photoplethysmograms (PPG), is persistently hindered by modality and frequency gaps stemming from heterogeneous recording devices. Existing foundation models typically rely on continuous latent spaces, which frequently suffer from severe modality entanglement, lack high-fidelity cross-frequency generative capacity, and impose high computational costs that prohibit edge-device deployment. In this paper, we propose Compact Latent Manifold Translation (CLMT), a highly parameter-efficient (0.09B) unified framework that bridges these gaps through a novel two-stage discrete translation paradigm. First, we introduce a Universal Tokenizer utilizing Hierarchical Residual Vector Quantization (RVQ) to decouple heterogeneous signals into isolated, well-structured discrete latent manifolds, effectively preventing inter-modality interference. Second, a Context-Prompted Latent Translator maps these discrete tokens across modalities by integrating static physiological priors, reframing complex signal synthesis as a pure latent sequence translation task. Extensive evaluations demonstrate that our 0.09B model significantly outperforms massive baselines. In cross-modal PPG-to-ECG synthesis, it resolves temporal phase drift and dramatically improves the clinical R-peak detection F1-score from 0.37 (baseline) to 0.83. Furthermore, in extreme cross-frequency super-resolution (25Hz to 100Hz), it successfully recovers high-frequency diagnostic landmarks, achieving an unprecedented Pearson correlation of 0.9956. By learning a universal discrete language for biological signals with a fraction of the computational footprint, our approach sets a new trajectory for edge-deployable, multi-modal medical foundation models.