Foundation Model-based Evaluation of Neuropsychiatric Disorders: A Lifespan-Inclusive, Multi-Modal, and Multi-Lingual Study

📄 arXiv: 2512.20948v1 📥 PDF

作者: Zhongren Dong, Haotian Guo, Weixiang Xu, Huan Zhao, Zixing Zhang

分类: cs.CL, cs.SD

发布日期: 2025-12-24


💡 一句话要点

提出基于大模型的神经精神疾病评估框架FEND,实现多模态、多语言和全生命周期的诊断。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经精神疾病 多模态融合 大模型 自然语言处理 语音识别 跨语言 迁移学习

📋 核心要点

  1. 现有神经精神疾病诊断方法缺乏统一评估框架,且多语言泛化能力不足,限制了其应用。
  2. FEND框架融合语音和文本模态,利用大模型能力,实现跨语言、全生命周期的疾病评估。
  3. 实验结果表明,FEND在AD和抑郁症检测中表现优异,但在ASD检测中受数据集异质性影响。

📝 摘要(中文)

神经精神疾病,如阿尔茨海默病(AD)、抑郁症和自闭症谱系障碍(ASD),其特征是语言和声音异常,这为早期检测提供了潜在的生物标志物。尽管多模态方法前景广阔,但多语言泛化和缺乏统一的评估框架等挑战依然存在。为了解决这些问题,我们提出了FEND(基于大模型的神经精神疾病评估),这是一个综合性的多模态框架,集成了语音和文本模态,用于检测全生命周期的AD、抑郁症和ASD。我们利用涵盖英语、中文、希腊语、法语和荷兰语的13个多语言数据集,系统地评估了多模态融合性能。结果表明,多模态融合在AD和抑郁症检测中表现出色,但在ASD中由于数据集异质性而表现不佳。我们还发现模态不平衡是一个普遍问题,多模态融合未能超过最佳的单模态模型。跨语料库实验表明,在任务和语言一致的场景中表现出稳健的性能,但在多语言和任务异构的环境中性能明显下降。通过提供广泛的基准和对性能影响因素的详细分析,FEND推动了自动化、全生命周期和多语言神经精神疾病评估领域的发展。我们鼓励研究人员采用FEND框架进行公平比较和可重复的研究。

🔬 方法详解

问题定义:神经精神疾病的早期检测面临多重挑战,包括:1)缺乏统一的评估框架,导致不同研究结果难以比较;2)多语言泛化能力不足,限制了模型在不同语言环境下的应用;3)数据集异质性问题,特别是对于像ASD这样的复杂疾病,不同数据集的特征差异较大,影响模型性能。现有方法难以有效整合多模态信息,且在跨语言、跨任务场景下表现不佳。

核心思路:FEND的核心思路是利用预训练大模型强大的表征学习能力,将语音和文本等多模态信息进行有效融合,构建一个统一的、可泛化的神经精神疾病评估框架。通过在多个多语言数据集上进行训练和评估,提高模型在不同语言和任务环境下的鲁棒性。同时,分析模态不平衡问题,探索更有效的多模态融合策略。

技术框架:FEND框架主要包含以下几个模块:1)多模态数据输入模块:接收语音和文本数据作为输入;2)特征提取模块:利用预训练大模型(如Transformer)提取语音和文本的特征表示;3)多模态融合模块:将语音和文本特征进行融合,例如使用注意力机制或拼接等方法;4)分类模块:根据融合后的特征,预测疾病类型(如AD、抑郁症、ASD)。整个流程旨在实现端到端的神经精神疾病评估。

关键创新:FEND的关键创新在于:1)提出了一个统一的多模态评估框架,可以处理多种神经精神疾病和多种语言;2)系统地评估了多模态融合在不同疾病和语言环境下的性能,并发现了模态不平衡问题;3)通过跨语料库实验,分析了模型在不同任务和语言环境下的泛化能力。

关键设计:在多模态融合模块中,可以采用不同的融合策略,例如:1)注意力机制:学习不同模态之间的权重,突出重要信息;2)拼接:将不同模态的特征向量直接拼接在一起;3)门控机制:使用门控单元控制不同模态信息的流入。损失函数通常采用交叉熵损失函数,用于衡量预测结果与真实标签之间的差异。网络结构可以采用Transformer或CNN等常见的深度学习模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FEND在AD和抑郁症检测中表现出色,但由于数据集异质性,在ASD检测中表现不佳。多模态融合在某些情况下未能超过最佳单模态模型,揭示了模态不平衡问题。跨语料库实验表明,模型在任务和语言一致的场景中表现稳健,但在多语言和任务异构的环境中性能下降。

🎯 应用场景

FEND框架可应用于神经精神疾病的早期筛查和诊断,辅助临床医生进行更准确的评估。该框架的多语言能力使其能够服务于不同语言背景的患者,具有广泛的应用前景。未来,FEND可以扩展到更多疾病类型和模态,例如结合脑电图、影像学数据等,构建更全面的诊断系统。

📄 摘要(原文)

Neuropsychiatric disorders, such as Alzheimer's disease (AD), depression, and autism spectrum disorder (ASD), are characterized by linguistic and acoustic abnormalities, offering potential biomarkers for early detection. Despite the promise of multi-modal approaches, challenges like multi-lingual generalization and the absence of a unified evaluation framework persist. To address these gaps, we propose FEND (Foundation model-based Evaluation of Neuropsychiatric Disorders), a comprehensive multi-modal framework integrating speech and text modalities for detecting AD, depression, and ASD across the lifespan. Leveraging 13 multi-lingual datasets spanning English, Chinese, Greek, French, and Dutch, we systematically evaluate multi-modal fusion performance. Our results show that multi-modal fusion excels in AD and depression detection but underperforms in ASD due to dataset heterogeneity. We also identify modality imbalance as a prevalent issue, where multi-modal fusion fails to surpass the best mono-modal models. Cross-corpus experiments reveal robust performance in task- and language-consistent scenarios but noticeable degradation in multi-lingual and task-heterogeneous settings. By providing extensive benchmarks and a detailed analysis of performance-influencing factors, FEND advances the field of automated, lifespan-inclusive, and multi-lingual neuropsychiatric disorder assessment. We encourage researchers to adopt the FEND framework for fair comparisons and reproducible research.