MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

作者: Vrushank Ahire, Yogesh Kumar, Anouck Girard, M. A. Ganaie

分类: cs.LG, cs.AI, cs.CV

发布日期: 2026-02-27

💡 一句话要点

MINT：用于阿尔茨海默病早期筛查的多模态影像-语音知识迁移

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 阿尔茨海默病 早期筛查 多模态学习 知识迁移 影像-语音 神经影像 语音分析

📋 核心要点

现有阿尔茨海默病筛查依赖昂贵的神经影像，限制了大规模应用，而独立的语音分析缺乏生物学依据，区分CN和MCI的可靠性不足。
MINT框架通过MRI教师模型将生物标志物知识迁移到语音编码器，使语音表征与MRI定义的嵌入空间对齐，从而实现生物学基础的语音分析。
实验表明，MINT框架在ADNI-4数据集上实现了与纯语音基线相当的性能，且多模态融合超越了单独MRI，验证了MRI到语音知识迁移的有效性。

📝 摘要（中文）

阿尔茨海默病是一种进行性神经退行性疾病，轻度认知障碍（MCI）标志着衰老和痴呆之间的关键过渡阶段。结构性MRI等神经影像模态提供了这种过渡的生物标志物，但其高昂的成本和基础设施需求限制了它们在人群规模上的部署。语音分析提供了一种非侵入性的替代方案，但纯语音分类器是独立于神经影像开发的，这使得决策边界在生物学上缺乏依据，并限制了其在区分认知正常（CN）和MCI方面的可靠性。我们提出了MINT（多模态影像-语音知识迁移），这是一个三阶段的跨模态框架，在训练时将MRI的生物标志物结构迁移到语音编码器中。一个在1228名受试者上训练的MRI教师模型，定义了一个用于CN与MCI分类的紧凑神经影像嵌入空间。一个残差投影头通过组合几何损失将语音表征与这个冻结的影像流形对齐，在适应学习到的生物标志物空间的同时，保持影像编码器的保真度。冻结的MRI分类器从未接触过语音，但在推理时应用于对齐的嵌入，且不需要扫描仪。在ADNI-4上的评估表明，对齐的语音实现了与纯语音基线相当的性能（AUC 0.720 vs 0.711），同时在推理时不需要影像，这表明MRI衍生的决策边界可以作为语音表征的基础。多模态融合优于单独的MRI（0.973 vs 0.958）。消融研究表明，dropout正则化和自监督预训练是关键的设计决策。据我们所知，这是首次展示用于阿尔茨海默病早期筛查的MRI到语音的知识迁移，为无需神经影像的人群水平认知分诊建立了一条生物学基础的途径。

🔬 方法详解

问题定义：论文旨在解决阿尔茨海默病早期筛查中，神经影像成本高昂、难以大规模应用，以及纯语音分析缺乏生物学依据的问题。现有方法要么依赖于昂贵的MRI扫描，要么使用独立于影像数据的语音分析，导致决策边界缺乏生物学解释，在区分认知正常（CN）和轻度认知障碍（MCI）时表现不佳。

核心思路：论文的核心思路是将MRI的生物标志物知识迁移到语音分析中，利用MRI数据训练的教师模型来指导语音编码器的学习，从而使语音表征能够反映MRI定义的生物标志物空间。这样，即使在推理阶段没有MRI数据，也可以使用语音数据进行阿尔茨海默病的早期筛查。

技术框架：MINT框架包含三个主要阶段：1) MRI教师模型训练：使用大量的MRI数据训练一个分类器，用于区分CN和MCI，并提取MRI的嵌入空间。2) 语音编码器对齐：使用残差投影头将语音表征与MRI的嵌入空间对齐，通过几何损失函数，使语音表征适应MRI学习到的生物标志物空间。3) 推理：使用冻结的MRI分类器对对齐后的语音嵌入进行分类，无需MRI数据。

关键创新：MINT框架的关键创新在于跨模态知识迁移，首次实现了从MRI到语音的知识迁移，将MRI的生物标志物信息融入到语音分析中。这种方法使得语音分析具有了生物学基础，提高了其在阿尔茨海默病早期筛查中的可靠性。与现有方法相比，MINT框架不需要在推理阶段使用MRI数据，降低了筛查成本，提高了可扩展性。

关键设计：MINT框架的关键设计包括：1) 使用残差投影头进行语音表征对齐，保证了语音编码器的学习效率和MRI编码器的保真度。2) 使用几何损失函数，使语音表征在MRI嵌入空间中具有相似的几何结构。3) 采用dropout正则化和自监督预训练，提高了模型的泛化能力。4) MRI教师模型冻结，保证了MRI知识的有效迁移。

🖼️ 关键图片

📊 实验亮点

MINT框架在ADNI-4数据集上取得了显著的实验结果。对齐后的语音实现了与纯语音基线相当的性能（AUC 0.720 vs 0.711），证明了MRI到语音知识迁移的有效性。多模态融合进一步提升了性能，超越了单独的MRI（0.973 vs 0.958）。消融研究表明，dropout正则化和自监督预训练是关键的设计决策，对模型性能有重要影响。

🎯 应用场景

MINT框架具有广泛的应用前景，可用于阿尔茨海默病的大规模早期筛查，尤其是在医疗资源匮乏的地区。通过语音分析，可以实现对高危人群的快速识别和分诊，从而降低筛查成本，提高诊断效率。该技术还可应用于其他神经退行性疾病的早期诊断和监测，具有重要的临床价值和社会意义。

📄 摘要（原文）

Alzheimer's disease is a progressive neurodegenerative disorder in which mild cognitive impairment (MCI) marks a critical transition between aging and dementia. Neuroimaging modalities, such as structural MRI, provide biomarkers of this transition; however, their high costs and infrastructure needs limit their deployment at a population scale. Speech analysis offers a non-invasive alternative, but speech-only classifiers are developed independently of neuroimaging, leaving decision boundaries biologically ungrounded and limiting reliability on the subtle CN-versus-MCI distinction. We propose MINT (Multimodal Imaging-to-Speech Knowledge Transfer), a three-stage cross-modal framework that transfers biomarker structure from MRI into a speech encoder at training time. An MRI teacher, trained on 1,228 subjects, defines a compact neuroimaging embedding space for CN-versus-MCI classification. A residual projection head aligns speech representations to this frozen imaging manifold via a combined geometric loss, adapting speech to the learned biomarker space while preserving imaging encoder fidelity. The frozen MRI classifier, which is never exposed to speech, is applied to aligned embeddings at inference and requires no scanner. Evaluation on ADNI-4 shows aligned speech achieves performance comparable to speech-only baselines (AUC 0.720 vs 0.711) while requiring no imaging at inference, demonstrating that MRI-derived decision boundaries can ground speech representations. Multimodal fusion improves over MRI alone (0.973 vs 0.958). Ablation studies identify dropout regularization and self-supervised pretraining as critical design decisions. To our knowledge, this is the first demonstration of MRI-to-speech knowledge transfer for early Alzheimer's screening, establishing a biologically grounded pathway for population-level cognitive triage without neuroimaging at inference.

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理