Multimodal Connectome Fusion via Cross-Attention for Autism Spectrum Disorder Classification Using Graph Learning

📄 arXiv: 2603.15168v1 📥 PDF

作者: Ansar Rahman, Hassan Shojaee-Mend, Sepideh Hatamikia

分类: cs.CV, cs.AI

发布日期: 2026-03-16

备注: 29 Pages; 5 Figures


💡 一句话要点

提出基于交叉注意力的多模态图学习框架,用于自闭症谱系障碍的分类。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自闭症谱系障碍 多模态融合 图神经网络 交叉注意力 脑连接组

📋 核心要点

  1. 现有ASD分类方法难以有效整合rs-fMRI和结构MRI这两种互补的异构成像数据。
  2. 提出一种多模态图学习框架,利用交叉注意力机制,在保留功能连接主导地位的同时融合结构信息。
  3. 在ABIDE-I数据集上,该框架在10折交叉验证和LOSO-CV下均优于现有方法。

📝 摘要(中文)

自闭症谱系障碍(ASD)是一种复杂的神经发育疾病,其特征在于非典型的功能性大脑连接和细微的结构改变。静息态功能磁共振成像(rs-fMRI)已被广泛用于识别大规模脑网络中的中断,而结构磁共振成像(structural MRI)提供了关于形态组织的补充信息。尽管它们具有互补性,但在统一框架内有效整合这些异构成像模式仍然具有挑战性。本研究提出了一种多模态图学习框架,该框架保留了功能连接的主导作用,同时整合了结构成像和表型信息用于ASD分类。该框架在ABIDE-I数据集上进行了评估。每个受试者被表示为人口图中的一个节点。功能和结构特征被提取为特定模态的节点属性,而受试者间的关系使用基于表型信息的成对关联编码器(PAE)建模。训练两个Edge Variational GCNs来学习受试者级别的嵌入。为了实现有效的多模态整合,我们引入了一种新颖的基于非对称Transformer的交叉注意力机制,该机制允许功能嵌入选择性地结合互补的结构信息,同时保持功能主导地位。然后将融合的嵌入传递给MLP进行ASD分类。使用分层10折交叉验证,该框架实现了87.3%的AUC和84.4%的准确率。在留一站点交叉验证(LOSO-CV)下,该模型实现了82.0%的平均跨站点准确率,在10折交叉验证下优于现有方法约3%,在LOSO-CV下优于现有方法约7%。所提出的框架有效地整合了来自多站点ABIDE-I数据集的异构多模态数据,从而提高了跨成像站点的自动ASD分类。

🔬 方法详解

问题定义:论文旨在解决自闭症谱系障碍(ASD)的自动分类问题,特别关注如何有效整合来自不同模态的脑成像数据,如rs-fMRI(功能磁共振成像)和结构MRI。现有方法在融合这些异构数据时面临挑战,无法充分利用它们之间的互补信息,导致分类性能受限。

核心思路:论文的核心思路是构建一个多模态图学习框架,该框架能够保留功能连接的主导地位,同时选择性地整合结构信息。通过图神经网络学习受试者的嵌入表示,并利用交叉注意力机制实现模态间的有效融合。这种设计旨在克服现有方法在处理异构数据时的局限性,提高ASD分类的准确性和鲁棒性。

技术框架:整体框架包含以下几个主要模块:1) 数据预处理和特征提取:从rs-fMRI和结构MRI数据中提取功能和结构特征,作为节点的属性。2) 成对关联编码器(PAE):利用表型信息建模受试者之间的关系,构建人口图的边。3) Edge Variational GCNs:训练两个独立的Edge Variational GCNs,分别学习功能和结构嵌入。4) 非对称Transformer-based交叉注意力机制:将功能嵌入作为query,结构嵌入作为key和value,通过交叉注意力选择性地融合结构信息到功能嵌入中。5) MLP分类器:将融合后的嵌入输入到多层感知机进行ASD分类。

关键创新:最重要的技术创新点在于提出的非对称Transformer-based交叉注意力机制。与传统的注意力机制不同,该机制允许功能嵌入选择性地吸收结构信息,同时保持功能连接的主导地位。这种非对称的设计更符合ASD的神经生物学特征,能够更有效地整合多模态数据。

关键设计:关键设计包括:1) 使用Edge Variational GCNs学习节点嵌入,能够捕捉节点之间的复杂关系。2) 交叉注意力机制中的非对称设计,保证功能连接的主导地位。3) 使用成对关联编码器(PAE)建模受试者之间的关系,利用表型信息提高图结构的质量。4) 损失函数的设计,可能包含分类损失、重构损失等,以优化模型的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究在ABIDE-I数据集上取得了显著的性能提升。在10折交叉验证下,AUC达到87.3%,准确率达到84.4%。更重要的是,在更具挑战性的留一站点交叉验证(LOSO-CV)下,该模型实现了82.0%的平均跨站点准确率,相比现有方法提升了约3%(10折交叉验证)和7%(LOSO-CV),表明该方法具有良好的泛化能力和跨站点适用性。

🎯 应用场景

该研究成果可应用于自闭症谱系障碍的早期诊断和辅助诊断,有助于临床医生更准确地识别ASD患者。通过整合多模态脑成像数据,可以更全面地了解ASD的神经机制,为个性化治疗方案的制定提供依据。未来,该方法还可以扩展到其他神经精神疾病的研究中,促进脑疾病的精准诊疗。

📄 摘要(原文)

Autism spectrum disorder (ASD) is a complex neurodevelopmental condition characterized by atypical functional brain connectivity and subtle structural alterations. rs-fMRI has been widely used to identify disruptions in large-scale brain networks, while structural MRI provides complementary information about morphological organization. Despite their complementary nature, effectively integrating these heterogeneous imaging modalities within a unified framework remains challenging. This study proposes a multimodal graph learning framework that preserves the dominant role of functional connectivity while integrating structural imaging and phenotypic information for ASD classification. The proposed framework is evaluated on ABIDE-I dataset. Each subject is represented as a node within a population graph. Functional and structural features are extracted as modality-specific node attributes, while inter-subject relationships are modeled using a pairwise association encoder (PAE) based on phenotypic information. Two Edge Variational GCNs are trained to learn subject-level embeddings. To enable effective multimodal integration, we introduce a novel asymmetric transformer-based cross-attention mechanism that allows functional embeddings to selectively incorporate complementary structural information while preserving functional dominance. The fused embeddings are then passed to a MLP for ASD classification. Using stratified 10-fold cross-validation, the framework achieved an AUC of 87.3% and an accuracy of 84.4%. Under leave-one-site-out cross-validation (LOSO-CV), the model achieved an average cross-site accuracy of 82.0%, outperforming existing methods by approximately 3% under 10-fold cross-validation and 7% under LOSO-CV. The proposed framework effectively integrates heterogeneous multimodal data from the multi-site ABIDE-I dataset, improving automated ASD classification across imaging sites.