PaCX-MAE: Physiology-Augmented Chest X-Ray Masked Autoencoder

作者: Yancheng Liu, Kenichi Maeda, Manan Pancholy

分类: cs.CV, cs.LG

发布日期: 2026-06-01

备注: Accepted at the ICML 2026 3rd Workshop on Multi-modal Foundation Models and Large Language Models for Life Sciences (FM4LS)

💡 一句话要点

PaCX-MAE：生理信息增强的胸部X光图像掩码自编码器，提升诊断性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 胸部X光 生理信号 跨模态学习 知识蒸馏 掩码自编码器

📋 核心要点

现有临床诊断模型通常仅依赖单模态数据，忽略了生理信息对疾病诊断的重要性。
PaCX-MAE通过跨模态蒸馏，将生理信号（ECG、实验室数据）的知识迁移到胸部X光图像编码器中。
实验表明，PaCX-MAE在多个生理依赖型任务上显著优于传统MAE，且具有良好的标签利用率。

📝 摘要（中文）

临床诊断通常需要结合影像学和生理测量数据，但现有模型通常基于单模态数据。本文提出PaCX-MAE，一种跨模态知识蒸馏框架，将生理先验知识注入胸部X光（CXR）编码器，同时在推理阶段保持单模态。PaCX-MAE通过双重对比预测目标，在域内掩码自编码的基础上，对齐CXR表征与配对的心电图（ECG）和实验室数据嵌入。在九个基准测试上的广泛评估表明，该方法相对于特定领域的MAE具有一致的改进，尤其是在生理依赖型任务上（例如，MedMod上+2.7 AUROC；VinDr上+6.5 F1）。该方法在1%数据量下表现出高效的标签利用率，并保持了解剖学保真度，在分割任务上与MAE相当。零样本和注意力分析证实，PaCX-MAE成功学习关注生理指标，例如标准视觉预训练中不存在的心脏轮廓。

🔬 方法详解

问题定义：现有胸部X光图像分析模型通常只利用图像信息，忽略了生理信号（如心电图、实验室数据）中蕴含的丰富信息。这些生理信号与多种疾病密切相关，将其融入模型可以显著提升诊断准确率。然而，直接将多模态数据融合会增加模型复杂度和训练难度，且推理阶段可能难以获取所有模态的数据。

核心思路：PaCX-MAE的核心思想是利用跨模态知识蒸馏，将生理信号的知识迁移到胸部X光图像编码器中。具体来说，模型在训练阶段同时学习图像和生理信号的表征，并利用对比学习方法对齐这两种表征。在推理阶段，模型仅使用胸部X光图像即可进行诊断，无需额外的生理信号。

技术框架：PaCX-MAE的整体框架包括三个主要模块：1) 胸部X光图像编码器（基于MAE）；2) 生理信号编码器（用于编码ECG和实验室数据）；3) 对比预测模块。首先，使用MAE对胸部X光图像进行预训练，学习图像的通用表征。然后，将预训练的MAE作为PaCX-MAE的图像编码器，并添加生理信号编码器和对比预测模块。在训练过程中，模型同时学习图像和生理信号的表征，并通过对比预测损失函数对齐这两种表征。

关键创新：PaCX-MAE的关键创新在于其跨模态知识蒸馏框架，该框架能够在训练阶段利用生理信号的知识，同时在推理阶段保持单模态。此外，PaCX-MAE还引入了一种双重对比预测目标，该目标能够更有效地对齐图像和生理信号的表征。

关键设计：PaCX-MAE使用MAE作为图像编码器的基础架构，并采用ViT（Vision Transformer）作为其具体实现。生理信号编码器使用简单的多层感知机（MLP）。对比预测损失函数采用InfoNCE损失，并使用温度系数τ来控制对比学习的难度。模型在训练时，随机mask掉部分胸部X光图像块，并利用剩余的图像块重建被mask掉的图像块，从而学习图像的上下文信息。

🖼️ 关键图片

📊 实验亮点

PaCX-MAE在九个基准测试上取得了显著的性能提升，尤其是在生理依赖型任务上。例如，在MedMod数据集上，PaCX-MAE的AUROC提高了2.7%，在VinDr数据集上，F1值提高了6.5%。此外，PaCX-MAE在1%数据量下表现出高效的标签利用率，并保持了解剖学保真度，在分割任务上与MAE相当。零样本和注意力分析证实，PaCX-MAE成功学习关注生理指标。

🎯 应用场景

PaCX-MAE可应用于多种临床场景，例如辅助诊断肺炎、肺结核、心脏病等疾病。该方法能够有效利用生理信息，提高诊断准确率，减少误诊和漏诊。此外，PaCX-MAE还可用于医学影像分析、疾病风险预测等领域，具有广阔的应用前景。

📄 摘要（原文）

Clinical diagnosis often requires combining imaging with physiological measurements, yet deployed models typically operate on unimodal data. We present PaCX-MAE, a cross-modal distillation framework that injects physiological priors into chest X-ray (CXR) encoders while remaining strictly unimodal at inference. PaCX-MAE augments in-domain masked autoencoding with a dual contrastive-predictive objective, aligning CXR representations with paired ECG and laboratory embeddings. Extensive evaluation across nine benchmarks demonstrates consistent improvements over domain-specific MAE, particularly on physiology-dependent tasks (e.g., +2.7 AUROC on MedMod; +6.5 F1 on VinDr). The method proves highly label-efficient in the 1% regime and preserves anatomical fidelity, achieving parity with MAE on segmentation tasks. Zero-shot and attention analyses confirm that PaCX-MAE successfully learns to attend to physiological indicators, such as the cardiac silhouette, absent in standard visual pretraining.

PaCX-MAE: Physiology-Augmented Chest X-Ray Masked Autoencoder

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理