PaCX-MAE: Physiology-Augmented Chest X-Ray Masked Autoencoder
作者: Yancheng Liu, Kenichi Maeda, Manan Pancholy
分类: cs.CV, cs.LG
发布日期: 2026-06-01
备注: Accepted at the ICML 2026 3rd Workshop on Multi-modal Foundation Models and Large Language Models for Life Sciences (FM4LS)
💡 一句话要点
PaCX-MAE:生理信息增强的胸部X光图像掩码自编码器,提升诊断性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 胸部X光 生理信号 跨模态学习 知识蒸馏 掩码自编码器
📋 核心要点
- 现有临床诊断模型通常仅依赖单模态数据,忽略了生理信息对疾病诊断的重要性。
- PaCX-MAE通过跨模态蒸馏,将生理信号(ECG、实验室数据)的知识迁移到胸部X光图像编码器中。
- 实验表明,PaCX-MAE在多个生理依赖型任务上显著优于传统MAE,且具有良好的标签利用率。
📝 摘要(中文)
临床诊断通常需要结合影像学和生理测量数据,但现有模型通常基于单模态数据。本文提出PaCX-MAE,一种跨模态知识蒸馏框架,将生理先验知识注入胸部X光(CXR)编码器,同时在推理阶段保持单模态。PaCX-MAE通过双重对比预测目标,在域内掩码自编码的基础上,对齐CXR表征与配对的心电图(ECG)和实验室数据嵌入。在九个基准测试上的广泛评估表明,该方法相对于特定领域的MAE具有一致的改进,尤其是在生理依赖型任务上(例如,MedMod上+2.7 AUROC;VinDr上+6.5 F1)。该方法在1%数据量下表现出高效的标签利用率,并保持了解剖学保真度,在分割任务上与MAE相当。零样本和注意力分析证实,PaCX-MAE成功学习关注生理指标,例如标准视觉预训练中不存在的心脏轮廓。
🔬 方法详解
问题定义:现有胸部X光图像分析模型通常只利用图像信息,忽略了生理信号(如心电图、实验室数据)中蕴含的丰富信息。这些生理信号与多种疾病密切相关,将其融入模型可以显著提升诊断准确率。然而,直接将多模态数据融合会增加模型复杂度和训练难度,且推理阶段可能难以获取所有模态的数据。
核心思路:PaCX-MAE的核心思想是利用跨模态知识蒸馏,将生理信号的知识迁移到胸部X光图像编码器中。具体来说,模型在训练阶段同时学习图像和生理信号的表征,并利用对比学习方法对齐这两种表征。在推理阶段,模型仅使用胸部X光图像即可进行诊断,无需额外的生理信号。
技术框架:PaCX-MAE的整体框架包括三个主要模块:1) 胸部X光图像编码器(基于MAE);2) 生理信号编码器(用于编码ECG和实验室数据);3) 对比预测模块。首先,使用MAE对胸部X光图像进行预训练,学习图像的通用表征。然后,将预训练的MAE作为PaCX-MAE的图像编码器,并添加生理信号编码器和对比预测模块。在训练过程中,模型同时学习图像和生理信号的表征,并通过对比预测损失函数对齐这两种表征。
关键创新:PaCX-MAE的关键创新在于其跨模态知识蒸馏框架,该框架能够在训练阶段利用生理信号的知识,同时在推理阶段保持单模态。此外,PaCX-MAE还引入了一种双重对比预测目标,该目标能够更有效地对齐图像和生理信号的表征。
关键设计:PaCX-MAE使用MAE作为图像编码器的基础架构,并采用ViT(Vision Transformer)作为其具体实现。生理信号编码器使用简单的多层感知机(MLP)。对比预测损失函数采用InfoNCE损失,并使用温度系数τ来控制对比学习的难度。模型在训练时,随机mask掉部分胸部X光图像块,并利用剩余的图像块重建被mask掉的图像块,从而学习图像的上下文信息。
🖼️ 关键图片
📊 实验亮点
PaCX-MAE在九个基准测试上取得了显著的性能提升,尤其是在生理依赖型任务上。例如,在MedMod数据集上,PaCX-MAE的AUROC提高了2.7%,在VinDr数据集上,F1值提高了6.5%。此外,PaCX-MAE在1%数据量下表现出高效的标签利用率,并保持了解剖学保真度,在分割任务上与MAE相当。零样本和注意力分析证实,PaCX-MAE成功学习关注生理指标。
🎯 应用场景
PaCX-MAE可应用于多种临床场景,例如辅助诊断肺炎、肺结核、心脏病等疾病。该方法能够有效利用生理信息,提高诊断准确率,减少误诊和漏诊。此外,PaCX-MAE还可用于医学影像分析、疾病风险预测等领域,具有广阔的应用前景。
📄 摘要(原文)
Clinical diagnosis often requires combining imaging with physiological measurements, yet deployed models typically operate on unimodal data. We present PaCX-MAE, a cross-modal distillation framework that injects physiological priors into chest X-ray (CXR) encoders while remaining strictly unimodal at inference. PaCX-MAE augments in-domain masked autoencoding with a dual contrastive-predictive objective, aligning CXR representations with paired ECG and laboratory embeddings. Extensive evaluation across nine benchmarks demonstrates consistent improvements over domain-specific MAE, particularly on physiology-dependent tasks (e.g., +2.7 AUROC on MedMod; +6.5 F1 on VinDr). The method proves highly label-efficient in the 1% regime and preserves anatomical fidelity, achieving parity with MAE on segmentation tasks. Zero-shot and attention analyses confirm that PaCX-MAE successfully learns to attend to physiological indicators, such as the cardiac silhouette, absent in standard visual pretraining.