Multimodal Connectome Fusion via Cross-Attention for Autism Spectrum Disorder Classification Using Graph Learning

作者: Ansar Rahman, Hassan Shojaee-Mend, Sepideh Hatamikia

分类: cs.CV, cs.AI

发布日期: 2026-03-16

备注: 29 Pages; 5 Figures

💡 一句话要点

提出基于交叉注意力的多模态图学习框架，用于自闭症谱系障碍的分类。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自闭症谱系障碍 多模态融合 图神经网络 交叉注意力 脑连接组

📋 核心要点

现有ASD分类方法难以有效整合rs-fMRI和结构MRI这两种互补的异构成像数据。
提出一种多模态图学习框架，利用交叉注意力机制，在保留功能连接主导地位的同时融合结构信息。
在ABIDE-I数据集上，该框架在10折交叉验证和LOSO-CV下均优于现有方法。

📝 摘要（中文）

自闭症谱系障碍(ASD)是一种复杂的神经发育疾病，其特征在于非典型的功能性大脑连接和细微的结构改变。静息态功能磁共振成像(rs-fMRI)已被广泛用于识别大规模脑网络中的中断，而结构磁共振成像(structural MRI)提供了关于形态组织的补充信息。尽管它们具有互补性，但在统一框架内有效整合这些异构成像模式仍然具有挑战性。本研究提出了一种多模态图学习框架，该框架保留了功能连接的主导作用，同时整合了结构成像和表型信息用于ASD分类。该框架在ABIDE-I数据集上进行了评估。每个受试者被表示为人口图中的一个节点。功能和结构特征被提取为特定模态的节点属性，而受试者间的关系使用基于表型信息的成对关联编码器(PAE)建模。训练两个Edge Variational GCNs来学习受试者级别的嵌入。为了实现有效的多模态整合，我们引入了一种新颖的基于非对称Transformer的交叉注意力机制，该机制允许功能嵌入选择性地结合互补的结构信息，同时保持功能主导地位。然后将融合的嵌入传递给MLP进行ASD分类。使用分层10折交叉验证，该框架实现了87.3%的AUC和84.4%的准确率。在留一站点交叉验证(LOSO-CV)下，该模型实现了82.0%的平均跨站点准确率，在10折交叉验证下优于现有方法约3%，在LOSO-CV下优于现有方法约7%。所提出的框架有效地整合了来自多站点ABIDE-I数据集的异构多模态数据，从而提高了跨成像站点的自动ASD分类。

🔬 方法详解

问题定义：论文旨在解决自闭症谱系障碍（ASD）的自动分类问题，特别关注如何有效整合来自不同模态的脑成像数据，如rs-fMRI（功能磁共振成像）和结构MRI。现有方法在融合这些异构数据时面临挑战，无法充分利用它们之间的互补信息，导致分类性能受限。

核心思路：论文的核心思路是构建一个多模态图学习框架，该框架能够保留功能连接的主导地位，同时选择性地整合结构信息。通过图神经网络学习受试者的嵌入表示，并利用交叉注意力机制实现模态间的有效融合。这种设计旨在克服现有方法在处理异构数据时的局限性，提高ASD分类的准确性和鲁棒性。

技术框架：整体框架包含以下几个主要模块：1) 数据预处理和特征提取：从rs-fMRI和结构MRI数据中提取功能和结构特征，作为节点的属性。2) 成对关联编码器(PAE)：利用表型信息建模受试者之间的关系，构建人口图的边。3) Edge Variational GCNs：训练两个独立的Edge Variational GCNs，分别学习功能和结构嵌入。4) 非对称Transformer-based交叉注意力机制：将功能嵌入作为query，结构嵌入作为key和value，通过交叉注意力选择性地融合结构信息到功能嵌入中。5) MLP分类器：将融合后的嵌入输入到多层感知机进行ASD分类。

关键创新：最重要的技术创新点在于提出的非对称Transformer-based交叉注意力机制。与传统的注意力机制不同，该机制允许功能嵌入选择性地吸收结构信息，同时保持功能连接的主导地位。这种非对称的设计更符合ASD的神经生物学特征，能够更有效地整合多模态数据。

关键设计：关键设计包括：1) 使用Edge Variational GCNs学习节点嵌入，能够捕捉节点之间的复杂关系。2) 交叉注意力机制中的非对称设计，保证功能连接的主导地位。3) 使用成对关联编码器(PAE)建模受试者之间的关系，利用表型信息提高图结构的质量。4) 损失函数的设计，可能包含分类损失、重构损失等，以优化模型的学习。

🖼️ 关键图片

📊 实验亮点

该研究在ABIDE-I数据集上取得了显著的性能提升。在10折交叉验证下，AUC达到87.3%，准确率达到84.4%。更重要的是，在更具挑战性的留一站点交叉验证(LOSO-CV)下，该模型实现了82.0%的平均跨站点准确率，相比现有方法提升了约3%（10折交叉验证）和7%（LOSO-CV），表明该方法具有良好的泛化能力和跨站点适用性。

🎯 应用场景

该研究成果可应用于自闭症谱系障碍的早期诊断和辅助诊断，有助于临床医生更准确地识别ASD患者。通过整合多模态脑成像数据，可以更全面地了解ASD的神经机制，为个性化治疗方案的制定提供依据。未来，该方法还可以扩展到其他神经精神疾病的研究中，促进脑疾病的精准诊疗。

📄 摘要（原文）

Autism spectrum disorder (ASD) is a complex neurodevelopmental condition characterized by atypical functional brain connectivity and subtle structural alterations. rs-fMRI has been widely used to identify disruptions in large-scale brain networks, while structural MRI provides complementary information about morphological organization. Despite their complementary nature, effectively integrating these heterogeneous imaging modalities within a unified framework remains challenging. This study proposes a multimodal graph learning framework that preserves the dominant role of functional connectivity while integrating structural imaging and phenotypic information for ASD classification. The proposed framework is evaluated on ABIDE-I dataset. Each subject is represented as a node within a population graph. Functional and structural features are extracted as modality-specific node attributes, while inter-subject relationships are modeled using a pairwise association encoder (PAE) based on phenotypic information. Two Edge Variational GCNs are trained to learn subject-level embeddings. To enable effective multimodal integration, we introduce a novel asymmetric transformer-based cross-attention mechanism that allows functional embeddings to selectively incorporate complementary structural information while preserving functional dominance. The fused embeddings are then passed to a MLP for ASD classification. Using stratified 10-fold cross-validation, the framework achieved an AUC of 87.3% and an accuracy of 84.4%. Under leave-one-site-out cross-validation (LOSO-CV), the model achieved an average cross-site accuracy of 82.0%, outperforming existing methods by approximately 3% under 10-fold cross-validation and 7% under LOSO-CV. The proposed framework effectively integrates heterogeneous multimodal data from the multi-site ABIDE-I dataset, improving automated ASD classification across imaging sites.

Multimodal Connectome Fusion via Cross-Attention for Autism Spectrum Disorder Classification Using Graph Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理