PulmoFusion: Advancing Pulmonary Health with Efficient Multi-Modal Fusion

📄 arXiv: 2501.17699v1 📥 PDF

作者: Ahmed Sharshar, Yasser Attia, Mohammad Yaqub, Mohsen Guizani

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-01-29

期刊: (ISBI 2025) 2025 IEEE International Symposium on Biomedical Imaging

🔗 代码/项目: GITHUB


💡 一句话要点

PulmoFusion:利用高效多模态融合推进肺部健康监测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 肺功能监测 多模态融合 脉冲神经网络 深度学习 热成像 呼吸系统疾病 非侵入式检测

📋 核心要点

  1. 传统肺功能检测精度不足,难以实现有效的远程肺部健康监测。
  2. 提出PulmoFusion,结合RGB或热成像视频与患者元数据,利用脉冲神经网络进行肺功能参数预测。
  3. 实验结果表明,该方法在肺功能参数预测方面达到了当前最优水平,尤其是在热成像数据上表现突出。

📝 摘要(中文)

传统遥测肺活量测定缺乏有效肺部监测所需的精度。本文提出了一种新颖的非侵入式方法,该方法使用多模态预测模型,将RGB或热视频数据与患者元数据相结合。我们的方法利用节能的脉冲神经网络(SNN)进行峰值呼气流量(PEF)的回归以及用力呼气容积(FEV1)和用力肺活量(FVC)的分类,并使用轻量级CNN来克服SNN在回归任务中的局限性。通过多头注意力层改进了多模态数据集成,并且我们采用K折验证和集成学习来提高鲁棒性。使用热数据,我们的SNN模型在呼吸周期基础上实现了92%的准确率,在患者层面上实现了99.5%的准确率。PEF回归模型获得了0.11(热数据)和0.26(RGB数据)的相对RMSE,FEV1/FVC预测的MAE为4.52%,确立了最先进的性能。代码和数据集可在https://github.com/ahmed-sharshar/RespiroDynamics.git上找到。

🔬 方法详解

问题定义:传统遥测肺活量测定精度不足,无法满足有效的肺部健康监测需求。现有方法在非侵入式、低功耗和高精度之间难以取得平衡,限制了其在远程医疗和可穿戴设备中的应用。

核心思路:利用多模态数据融合(RGB/热成像视频 + 患者元数据)来提升肺功能参数预测的准确性和鲁棒性。采用节能的脉冲神经网络(SNN)以降低功耗,并结合卷积神经网络(CNN)来弥补SNN在回归任务上的不足。

技术框架:整体框架包含数据采集、预处理、特征提取、多模态融合和预测几个主要阶段。首先,采集RGB或热成像视频以及患者元数据。然后,使用轻量级CNN从视频数据中提取特征。接着,利用多头注意力机制融合来自不同模态的数据。最后,使用SNN进行PEF回归和FEV1/FVC分类。采用K折交叉验证和集成学习进一步提高模型的泛化能力。

关键创新:主要创新点在于:1) 提出了一种基于SNN的多模态肺功能预测方法,实现了低功耗和高精度的平衡;2) 使用多头注意力机制有效融合了RGB/热成像视频和患者元数据;3) 结合CNN和SNN,克服了SNN在回归任务中的局限性。

关键设计:SNN的具体结构未知,但强调了其节能特性。CNN采用轻量级设计,具体结构未知。多头注意力机制的具体参数设置未知。损失函数方面,回归任务可能采用均方误差(MSE)或相对均方根误差(Relative RMSE),分类任务可能采用交叉熵损失。K折交叉验证的具体折数未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

使用热数据时,SNN模型在呼吸周期层面的准确率达到92%,在患者层面的准确率达到99.5%。PEF回归模型的相对RMSE,热数据为0.11,RGB数据为0.26。FEV1/FVC预测的MAE为4.52%,优于现有方法,达到了当前最优水平。

🎯 应用场景

该研究成果可应用于远程医疗、可穿戴健康设备和智能家居等领域,实现对慢性阻塞性肺疾病(COPD)、哮喘等呼吸系统疾病患者的非侵入式、实时监测和预警,提升患者的生活质量和医疗效率。未来可进一步探索与其他生理信号的融合,扩展应用场景。

📄 摘要(原文)

Traditional remote spirometry lacks the precision required for effective pulmonary monitoring. We present a novel, non-invasive approach using multimodal predictive models that integrate RGB or thermal video data with patient metadata. Our method leverages energy-efficient Spiking Neural Networks (SNNs) for the regression of Peak Expiratory Flow (PEF) and classification of Forced Expiratory Volume (FEV1) and Forced Vital Capacity (FVC), using lightweight CNNs to overcome SNN limitations in regression tasks. Multimodal data integration is improved with a Multi-Head Attention Layer, and we employ K-Fold validation and ensemble learning to boost robustness. Using thermal data, our SNN models achieve 92% accuracy on a breathing-cycle basis and 99.5% patient-wise. PEF regression models attain Relative RMSEs of 0.11 (thermal) and 0.26 (RGB), with an MAE of 4.52% for FEV1/FVC predictions, establishing state-of-the-art performance. Code and dataset can be found on https://github.com/ahmed-sharshar/RespiroDynamics.git