Multimodal normative modeling in Alzheimers Disease with introspective variational autoencoders
作者: Sayantan Kumar, Peijie Qiu, Aristeidis Sotiras
分类: cs.LG, cs.AI
发布日期: 2026-02-08
备注: Conference on Health, Inference, and Learning (CHIL)
💡 一句话要点
提出mmSIVAE模型,提升阿尔茨海默病多模态规范建模的参考分布拟合和模态融合效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阿尔茨海默病 规范建模 多模态融合 变分自编码器 神经影像 MOPOE 软自省
📋 核心要点
- 传统VAE规范模型在拟合健康参考分布时存在不足,导致假阳性率升高,影响疾病诊断的准确性。
- mmSIVAE模型通过软自省机制和MOPOE聚合,提升参考分布拟合精度,并增强多模态信息在潜在空间的融合。
- 实验表明,mmSIVAE在阿尔茨海默病诊断中,能更准确地检测异常,并生成与疾病相关的区域异常图。
📝 摘要(中文)
本研究针对阿尔茨海默病(AD)中多模态神经影像的规范建模问题,提出了一种名为mmSIVAE的多模态软自省变分自编码器。该模型结合了混合专家乘积(MOPOE)聚合方法,旨在提高健康参考分布的拟合精度,减少假阳性,并增强共享潜在空间中的多模态融合效果。通过计算潜在空间和特征空间中与健康分布的距离来获得偏差分数,并将显著的潜在偏差映射到区域异常以提高可解释性。在ADNI数据集上的MRI区域体积和淀粉样蛋白PET SUVR实验表明,mmSIVAE在重构控制组数据和产生区分性偏差分数方面优于VAE基线模型,具有更高的似然比和更清晰的对照组与AD谱系队列分离。偏差图突出了与已知的AD相关变化的区域模式。研究结果强调了训练目标中参考分布保真度和鲁棒的多模态后验聚合对于规范建模的重要性,并对跨多模态临床数据的基于偏差的分析具有重要意义。
🔬 方法详解
问题定义:现有的基于VAE的规范建模方法在处理阿尔茨海默病的多模态神经影像数据时,存在两个主要问题。一是VAE模型难以完美拟合健康的参考分布,导致在后续的偏差分析中出现较高的假阳性率。二是常用的后验聚合方法(如PoE/MoE)在融合多模态信息时可能效果不佳,导致共享潜在空间中的模态融合较弱,无法充分利用多模态数据的互补信息。
核心思路:论文的核心思路是通过改进VAE的训练目标和后验聚合方式,来提高参考分布的拟合精度和多模态融合效果。具体来说,引入了“软自省”机制,鼓励模型更好地学习健康数据的特征,从而提高参考分布的保真度。同时,采用MOPOE聚合方法,旨在更有效地融合来自不同模态的信息,从而在潜在空间中获得更强的多模态表示。
技术框架:mmSIVAE模型整体上是一个变分自编码器框架,包含编码器和解码器两部分。编码器将多模态输入数据(例如MRI和PET影像)映射到共享的潜在空间。解码器则从潜在空间重构输入数据。关键在于,每个模态都有自己的编码器,然后通过MOPOE进行后验聚合,得到最终的潜在表示。然后,使用解码器将潜在表示重构回各个模态的数据。
关键创新:该论文的关键创新在于以下两点:一是提出了“软自省”机制,通过修改损失函数,鼓励模型更好地拟合健康参考分布。具体实现方式未知,但推测是增加了一项惩罚项,使得模型在重构健康数据时更加准确。二是采用了MOPOE聚合方法,相比于传统的PoE/MoE,MOPOE能够更有效地融合多模态信息,从而在潜在空间中获得更强的多模态表示。
关键设计:关于软自省机制的具体实现方式未知。MOPOE聚合方法是一种概率模型,它假设每个模态的后验分布都是一个专家,然后将所有专家的乘积作为最终的后验分布。这种方法可以有效地融合来自不同模态的信息,因为每个专家都会对最终的后验分布产生影响。具体的损失函数设计未知,但可以推测包含重构损失和正则化项,以及可能存在的软自省相关的惩罚项。
🖼️ 关键图片
📊 实验亮点
实验结果表明,mmSIVAE模型在ADNI数据集上取得了显著的性能提升。相比于VAE基线模型,mmSIVAE在重构控制组数据时具有更高的精度,并且能够产生更具区分性的偏差分数,从而更有效地分离对照组和AD谱系队列。此外,偏差图显示,mmSIVAE能够准确地定位与AD相关的脑区异常。
🎯 应用场景
该研究成果可应用于阿尔茨海默病的早期诊断和风险评估。通过量化个体与健康参考分布的偏差,可以识别出早期病变迹象,为临床干预提供依据。此外,该方法也可推广到其他神经退行性疾病的多模态影像分析,具有广泛的应用前景。
📄 摘要(原文)
Normative modeling learns a healthy reference distribution and quantifies subject-specific deviations to capture heterogeneous disease effects. In Alzheimers disease (AD), multimodal neuroimaging offers complementary signals but VAE-based normative models often (i) fit the healthy reference distribution imperfectly, inflating false positives, and (ii) use posterior aggregation (e.g., PoE/MoE) that can yield weak multimodal fusion in the shared latent space. We propose mmSIVAE, a multimodal soft-introspective variational autoencoder combined with Mixture-of-Product-of-Experts (MOPOE) aggregation to improve reference fidelity and multimodal integration. We compute deviation scores in latent space and feature space as distances from the learned healthy distributions, and map statistically significant latent deviations to regional abnormalities for interpretability. On ADNI MRI regional volumes and amyloid PET SUVR, mmSIVAE improves reconstruction on held-out controls and produces more discriminative deviation scores for outlier detection than VAE baselines, with higher likelihood ratios and clearer separation between control and AD-spectrum cohorts. Deviation maps highlight region-level patterns aligned with established AD-related changes. More broadly, our results highlight the importance of training objectives that prioritize reference-distribution fidelity and robust multimodal posterior aggregation for normative modeling, with implications for deviation-based analysis across multimodal clinical data.