OPTIMUS: Predicting Multivariate Outcomes in Alzheimer's Disease Using Multi-modal Data amidst Missing Values
作者: Christelle Schneuwly Diaz, Duy-Thanh Vu, Julien Bodelet, Duy-Cat Can, Guillaume Blanc, Haiting Jiang, Lin Yao, Guiseppe Pantaleo, ADNI, Oliver Y. Chén
分类: cs.LG, q-bio.NC
发布日期: 2025-03-14
💡 一句话要点
OPTIMUS:利用多模态数据和可解释AI预测阿尔茨海默病中的多变量结果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阿尔茨海默病 多模态数据 机器学习 缺失值处理 可解释AI 多变量预测 生物标志物
📋 核心要点
- 传统阿尔茨海默病预测侧重于单变量结果,忽略了多模态数据蕴含的丰富信息,且缺失值问题普遍存在。
- OPTIMUS框架通过模态特定插补处理缺失值,利用机器学习建立多模态生物标志物与多变量认知结果的映射关系。
- 实验表明,OPTIMUS能够识别出与执行功能、语言、记忆和视觉空间功能相关的神经和转录组学特征。
📝 摘要(中文)
阿尔茨海默病(AD)是一种神经退行性疾病,与神经、遗传和蛋白质组学因素相关,同时影响多种认知和行为能力。传统的AD预测主要集中于单变量疾病结果,如疾病阶段和严重程度。多模态数据编码的信息比单一模态更广泛,因此可能改善疾病预测;但它们通常包含缺失值。最近的“更深层”机器学习方法在提高预测准确性方面显示出希望,但这些模型的生物学相关性需要进一步研究。本文整合了缺失数据分析、预测建模、多模态数据分析和可解释AI,提出了OPTIMUS,一个预测性、模块化和可解释的机器学习框架,旨在揭示多模态输入数据和多变量疾病结果之间存在缺失值情况下的多对多预测通路。OPTIMUS首先应用特定模态的插补来揭示来自每个模态的数据,同时优化整体预测准确性。然后,它使用机器学习将多模态生物标志物映射到多变量结果,并提取分别预测每个结果的生物标志物。最后,OPTIMUS结合XAI来解释已识别的多模态生物标志物。使用来自346名认知正常受试者、608名轻度认知障碍患者和251名AD患者的数据,OPTIMUS识别出神经和转录组学特征,这些特征共同但差异化地预测与执行功能、语言、记忆和视觉空间功能相关的多变量结果。我们的工作证明了构建一个预测性和生物学上可解释的机器学习框架的潜力,以揭示捕获跨不同认知景观的疾病概况的多模态生物标志物。结果提高了我们对AD中复杂的多对多通路的理解。
🔬 方法详解
问题定义:阿尔茨海默病(AD)的预测通常依赖于单变量的疾病结果,例如疾病分期。然而,AD是一种复杂疾病,涉及多种认知功能障碍,且多模态数据(如神经影像、基因组学等)包含更全面的疾病信息。现有方法难以有效整合多模态数据,特别是当数据存在缺失值时,并且缺乏对预测结果的生物学解释。
核心思路:OPTIMUS的核心思路是构建一个模块化的、可解释的机器学习框架,该框架能够处理多模态数据中的缺失值,并预测多个认知领域的疾病结果。通过模态特定的插补方法处理缺失值,然后利用机器学习模型建立多模态生物标志物与多变量认知结果之间的映射关系。最后,利用可解释AI(XAI)技术揭示关键生物标志物及其对不同认知功能的影响。
技术框架:OPTIMUS框架包含三个主要模块: 1. 模态特定插补:针对每种模态的数据,采用特定的插补方法来填充缺失值,目标是最大化整体预测准确性。 2. 多变量结果预测:使用机器学习模型(具体模型类型未知)将多模态生物标志物映射到多个认知领域的疾病结果,例如执行功能、语言、记忆和视觉空间功能。 3. 可解释AI (XAI):利用XAI技术来解释预测模型,识别对不同认知结果具有预测性的关键生物标志物。
关键创新:OPTIMUS的关键创新在于: 1. 多模态数据整合:能够有效整合来自不同模态的数据,从而更全面地捕捉疾病信息。 2. 缺失值处理:采用模态特定的插补方法,提高了数据利用率和预测准确性。 3. 多变量结果预测:能够同时预测多个认知领域的疾病结果,更符合AD的复杂性。 4. 可解释性:利用XAI技术揭示关键生物标志物,为疾病机制研究提供线索。
关键设计:论文中未明确说明具体的机器学习模型类型、插补方法、XAI技术以及损失函数等细节。这些是需要进一步研究才能明确的关键设计。
🖼️ 关键图片
📊 实验亮点
OPTIMUS框架在阿尔茨海默病多变量结果预测中表现出潜力,能够识别出与执行功能、语言、记忆和视觉空间功能相关的神经和转录组学特征。该研究使用了包含346名认知正常受试者、608名轻度认知障碍患者和251名AD患者的大型数据集,验证了框架的有效性。具体性能指标和对比基线未在摘要中明确说明。
🎯 应用场景
OPTIMUS框架可应用于阿尔茨海默病早期诊断、风险评估和个性化治疗方案制定。通过识别与不同认知功能相关的生物标志物,有助于深入理解疾病机制,并为药物研发提供靶点。该框架也可推广到其他复杂疾病的多模态数据分析和预测。
📄 摘要(原文)
Alzheimer's disease, a neurodegenerative disorder, is associated with neural, genetic, and proteomic factors while affecting multiple cognitive and behavioral faculties. Traditional AD prediction largely focuses on univariate disease outcomes, such as disease stages and severity. Multimodal data encode broader disease information than a single modality and may, therefore, improve disease prediction; but they often contain missing values. Recent "deeper" machine learning approaches show promise in improving prediction accuracy, yet the biological relevance of these models needs to be further charted. Integrating missing data analysis, predictive modeling, multimodal data analysis, and explainable AI, we propose OPTIMUS, a predictive, modular, and explainable machine learning framework, to unveil the many-to-many predictive pathways between multimodal input data and multivariate disease outcomes amidst missing values. OPTIMUS first applies modality-specific imputation to uncover data from each modality while optimizing overall prediction accuracy. It then maps multimodal biomarkers to multivariate outcomes using machine-learning and extracts biomarkers respectively predictive of each outcome. Finally, OPTIMUS incorporates XAI to explain the identified multimodal biomarkers. Using data from 346 cognitively normal subjects, 608 persons with mild cognitive impairment, and 251 AD patients, OPTIMUS identifies neural and transcriptomic signatures that jointly but differentially predict multivariate outcomes related to executive function, language, memory, and visuospatial function. Our work demonstrates the potential of building a predictive and biologically explainable machine-learning framework to uncover multimodal biomarkers that capture disease profiles across varying cognitive landscapes. The results improve our understanding of the complex many-to-many pathways in AD.