PanLUNA: An Efficient and Robust Query-Unified Multimodal Model for Edge Biosignal Intelligence

📄 arXiv: 2604.04297 📥 PDF

作者: Marija Zelic, Anna Tegon, Yawei Li, Thorir Mar Ingolfsson, Luca Benini

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

PanLUNA:一种高效鲁棒的查询统一多模态模型,用于边缘生物信号智能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 生理信号 边缘计算 深度学习 Transformer 量化感知训练 生物信号处理

📋 核心要点

  1. 现有生理基础模型多为单模态,缺乏对多模态生物信号的联合处理能力,限制了其应用范围。
  2. PanLUNA通过统一查询集和传感器类型嵌入,实现了多模态生物信号的高效跨模态早期融合,并对缺失模态具有鲁棒性。
  3. PanLUNA在脑电异常检测和多模态睡眠分期任务上取得了优异性能,同时具有低功耗特性,适合边缘部署。

📝 摘要(中文)

生理基础模型(FMs)在生物信号表征学习方面展现了潜力,但大多数模型仍局限于单一模态,如脑电图(EEG)、心电图(ECG)或光电容积脉搏波(PPG),这主要是因为配对的多模态数据集稀缺。本文提出了PanLUNA,一个紧凑的540万参数的泛模态FM,它在单个共享编码器中联合处理EEG、ECG和PPG。PanLUNA扩展了LUNA的通道统一模块,将多模态通道视为统一查询集中的条目,并使用传感器类型嵌入进行增强,从而实现高效的跨模态早期融合,同时在推理时保持对缺失模态的固有鲁棒性。尽管体积小巧,PanLUNA的性能与高达57倍的模型相当甚至超过:在TUAB异常脑电检测中达到81.21%的平衡准确率,在HMC多模态睡眠分期中达到最先进的0.7416平衡准确率。采用INT8权重的量化感知训练恢复了≥96%的全精度性能,并且在用于可穿戴设备的GAP9超低功耗RISC-V微控制器上的部署实现了325.6毫秒的延迟和18.8毫焦耳/10秒、12导联ECG推理,以及1.206秒的延迟和68.65毫焦耳/30秒epoch的5通道多模态睡眠分期。

🔬 方法详解

问题定义:现有生理信号基础模型大多针对单一模态(如EEG、ECG、PPG),缺乏有效利用多模态信息的能力。构建多模态生理信号模型面临数据稀缺和模态对齐的挑战,且现有模型计算复杂度高,难以在边缘设备上部署。

核心思路:PanLUNA的核心在于将不同模态的生理信号通道视为统一查询集中的条目,并利用传感器类型嵌入来区分不同模态。这种统一表示方法使得模型能够进行跨模态早期融合,同时对缺失模态具有鲁棒性。通过量化感知训练,进一步降低模型计算复杂度,使其能够在低功耗边缘设备上高效运行。

技术框架:PanLUNA基于LUNA架构,主要包含以下模块:1) 通道统一模块:将不同模态的生理信号通道统一表示为查询集。2) 传感器类型嵌入:为每个通道添加传感器类型信息,区分不同模态。3) 共享编码器:使用Transformer编码器对统一的查询集进行编码,提取多模态特征。4) 分类器:根据提取的特征进行下游任务的预测。整个流程包括数据预处理、特征提取、模型训练和推理。

关键创新:PanLUNA的关键创新在于其统一的查询表示方法和传感器类型嵌入。这种方法能够有效地融合多模态信息,同时保持对缺失模态的鲁棒性。此外,通过量化感知训练,显著降低了模型的计算复杂度,使其能够在边缘设备上部署。

关键设计:PanLUNA使用5.4M参数的Transformer编码器。传感器类型嵌入采用可学习的向量表示。损失函数根据具体下游任务选择,例如交叉熵损失用于分类任务。量化感知训练采用INT8权重,以降低计算复杂度和内存占用。

🖼️ 关键图片

fig_0

📊 实验亮点

PanLUNA在TUAB异常脑电检测中达到81.21%的平衡准确率,在HMC多模态睡眠分期中达到最先进的0.7416平衡准确率,性能与高达57倍的模型相当甚至超过。在GAP9超低功耗RISC-V微控制器上,10秒12导联ECG推理延迟为325.6毫秒,功耗为18.8毫焦耳;30秒epoch的5通道多模态睡眠分期延迟为1.206秒,功耗为68.65毫焦耳。

🎯 应用场景

PanLUNA适用于各种需要多模态生理信号分析的场景,如可穿戴健康监测设备、智能睡眠监测系统、以及远程医疗诊断等。其低功耗和高效率的特点使其非常适合在资源受限的边缘设备上部署,实现实时的生理信号分析和智能决策。该研究有望推动个性化健康管理和疾病早期预警的发展。

📄 摘要(原文)

Physiological foundation models (FMs) have shown promise for biosignal representation learning, yet most remain confined to a single modality such as EEG, ECG, or PPG, largely because paired multimodal datasets are scarce. In this paper, we present PanLUNA, a compact 5.4M-parameter pan-modal FM that jointly processes EEG, ECG, and PPG within a single shared encoder. Extending LUNA's channel-unification module, PanLUNA treats multimodal channels as entries in a unified query set augmented with sensor-type embeddings, enabling efficient cross-modal early fusion while remaining inherently robust to missing modalities at inference time. Despite its small footprint, PanLUNA matches or exceeds models up to 57$\times$ larger: 81.21% balanced accuracy on TUAB abnormal EEG detection and state-of-the-art 0.7416 balanced accuracy on HMC multimodal sleep staging. Quantization-aware training with INT8 weights recovers $\geq$96% of full-precision performance, and deployment on the GAP9 ultra-low-power RISC-V microcontroller for wearables achieves 325.6 ms latency and 18.8 mJ per 10-second, 12-lead ECG inference, and 1.206 s latency at 68.65 mJ for multimodal 5-channel sleep staging over 30-second epochs.