Discovering Functionally Selective Brain Regions with a Deep Topographic Multimodal Model

📄 arXiv: 2606.09770v1 📥 PDF

作者: Badr AlKhamissi, Johannes Mehrer, Lara Marinov, Ahmed Abdelaal, Abdulkadir Gokce, Martin Schrimpf

分类: q-bio.NC, cs.LG

发布日期: 2026-06-08

备注: Preprint. First two author contributed equally


💡 一句话要点

提出Topo-Omni模型以解决脑区功能选择性研究问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 拓扑结构 神经影像 认知科学 脑区功能 聚类分析 空间平滑性 人工智能

📋 核心要点

  1. 现有的单模态拓扑模型无法有效整合不同模态的信息,导致生成的脑区功能图谱片段化。
  2. 提出Topo-Omni模型,通过共享一个连续的计算空间,整合视觉、听觉和语言/认知处理,提升多模态信息的表示能力。
  3. 实验结果表明,该模型能够发现新的脑区聚类,并与人类神经影像数据一致,验证了其有效性。

📝 摘要(中文)

在大脑皮层中,邻近神经元共享相似的反应特征,形成系统的空间组织。现有的单模态拓扑模型无法有效整合不同模态的信息,导致生成的地图片段化。本文提出了Topo-Omni,一个多模态拓扑模型,使视觉、听觉和语言/认知处理共享一个连续的计算空间。通过微调预训练模型并引入空间平滑性目标,该架构在不同模态中形成与人类神经影像一致的聚类。驱动或抑制某个聚类会选择性地影响感知,类似于人类干预研究。最后,我们利用该模型在计算中筛选出新聚类,并在人体数据中验证了新发现的自然景观和动物网络。

🔬 方法详解

问题定义:本文旨在解决现有单模态拓扑模型在整合多模态信息时的不足,导致的脑区功能图谱片段化问题。

核心思路:提出Topo-Omni模型,通过共享一个连续的计算空间,使不同模态的信息能够相互关联,形成一致的聚类结构。

技术框架:Topo-Omni模型基于预训练的基础模型,通过引入空间平滑性目标进行微调,整体架构包括视觉、听觉和语言处理模块,形成一个多模态的拓扑结构。

关键创新:模型的核心创新在于其多模态整合能力,通过一个连续的计算空间来组织不同模态的表示,与传统的单模态模型形成鲜明对比。

关键设计:在模型设计中,采用了空间平滑性损失函数来确保聚类的连贯性,并通过调整网络结构来优化不同模态之间的交互。具体参数设置和网络层次结构在实验中进行了详细验证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,Topo-Omni模型在发现新聚类方面表现出色,成功识别出新的自然景观和动物网络,且与人类神经影像数据高度一致。这一发现为理解大脑的多模态整合提供了新的视角。

🎯 应用场景

该研究的潜在应用领域包括神经科学、认知心理学和人工智能等。通过更好地理解大脑的功能选择性,可能推动脑机接口、认知障碍诊断和治疗等领域的发展,具有重要的实际价值和未来影响。

📄 摘要(原文)

Nearby neurons in cortex share similar response profiles, producing systematic spatial organization across sensory and cognitive systems. Recent topographic models reproduce aspects of this structure but remain unimodal and spatially constrain each layer separately, yielding fragmented maps that capture neither the contiguity of cortical processing streams nor their integration across modalities. We introduce Topo-Omni, a topographic multimodal model in which visual, auditory, and language/cognitive processing share a single contiguous in-silico sheet. Built by fine-tuning a pretrained foundation model with a spatial smoothness objective, this architecture develops clusters across modalities that are consistent with human neuroimaging, from sensory to cognitive systems. Driving or suppressing a cluster selectively biases or impairs perception, paralleling human intervention studies. Finally, we use our model to screen for novel clusters in-silico and discover new natural landscape and animal networks which we validate in human data. A single spatial principle thus organizes representations across modalities and processing stages, yielding testable hypotheses about cortical organization.