Self-organized MT Direction Maps Emerge from Spatiotemporal Contrastive Optimization

📄 arXiv: 2605.11718v1 📥 PDF

作者: Zhaotian Gu, Molan Li, Jie Su, Chang Liu, Tianyi Qian, Dahui Wang

分类: q-bio.NC, cs.AI, cs.NE

发布日期: 2026-05-12


💡 一句话要点

提出时空对比优化方法,模拟灵长类MT区方向选择性图的自组织涌现

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 视觉皮层 MT区 方向选择性 自组织 时空对比学习

📋 核心要点

  1. 现有计算框架难以解释背侧通路中MT区方向选择性图的拓扑结构。
  2. 提出一种时空TDANN,通过时空对比优化和空间正则化,模拟MT区方向选择性图的自组织。
  3. 模型在方向选择性、圆形方差和涡轮密度等指标上与猕猴MT区生理数据定量匹配。

📝 摘要(中文)

本文旨在探索灵长类视觉皮层空间和功能组织的神经科学基础问题,特别是背侧通路中颞中区(MT)方向选择性图的计算起源。通过构建一个时空地形深度人工神经网络(TDANN),并利用动量对比(MoCo)自监督范式在自然视频上训练3D ResNet,结合生物启发的空间损失,模型自发涌现出类似大脑的方向图和拓扑涡轮结构。研究表明,MT区的调谐特性,即强方向选择性和残余轴向成分,源于任务驱动的判别压力和空间正则化之间的严格优化权衡。模型表征与猕猴MT区的生理基线定量匹配,包括方向选择性指数、圆形方差和涡轮密度。这些发现统一了腹侧和背侧通路的计算起源,为皮层自组织建立了一个通用机制。

🔬 方法详解

问题定义:论文旨在解决视觉皮层中MT区(颞中区)的方向选择性图如何自组织形成的问题。现有的计算模型,如TDANN,虽然在模拟腹侧通路的空间组织方面取得了成功,但对于背侧通路中独特的拓扑结构,特别是MT区的方向选择性图,缺乏有效的解释。现有的方法未能充分解释MT区神经元如何对运动方向进行选择性响应,以及这种选择性响应的空间分布模式。

核心思路:论文的核心思路是通过模拟生物视觉系统的学习过程,利用自监督学习和空间正则化,使神经网络能够从自然视频中学习到运动信息的表征,并自发地形成类似MT区的方向选择性图。这种思路基于一个假设,即MT区的方向选择性是任务驱动的判别压力(区分不同的运动模式)和空间正则化(相邻神经元具有相似的响应特性)之间权衡的结果。

技术框架:整体框架是一个时空TDANN,包含一个3D ResNet作为特征提取器,以及一个动量对比(MoCo)自监督学习框架。3D ResNet用于从自然视频中提取时空特征。MoCo框架用于训练网络学习区分不同的视频片段,从而捕捉运动信息。此外,还引入了一个生物启发的空间损失函数,鼓励相邻神经元具有相似的响应特性。整个训练过程旨在优化网络,使其既能有效地进行运动模式的判别,又能保持空间上的平滑性。

关键创新:最重要的技术创新点在于将时空对比学习与空间正则化相结合,从而模拟了MT区方向选择性图的自组织涌现。与传统的监督学习方法不同,该方法不需要人工标注的运动方向信息,而是通过自监督学习从自然视频中学习。此外,空间正则化的引入模拟了生物神经元之间的相互作用,促进了方向选择性图的形成。这种方法为理解皮层自组织提供了一个新的视角。

关键设计:关键的设计包括:1) 使用3D ResNet作为特征提取器,以捕捉视频中的时空信息;2) 使用MoCo框架进行自监督学习,通过对比学习的方式学习运动信息的表征;3) 引入空间损失函数,鼓励相邻神经元具有相似的响应特性,具体形式未知;4) 通过调整任务驱动的判别压力和空间正则化之间的权重,来控制方向选择性图的形成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型成功地模拟了MT区方向选择性图的自组织涌现,并在方向选择性指数、圆形方差和涡轮密度等指标上与猕猴MT区的生理数据定量匹配。这些结果表明,该模型能够有效地捕捉MT区的关键特性,并为理解皮层自组织提供了一个有力的计算框架。具体的性能数据和提升幅度在摘要中有所提及,但未给出具体数值。

🎯 应用场景

该研究成果可应用于类脑计算、机器人视觉和视频分析等领域。通过模拟生物视觉系统的自组织机制,可以开发出更鲁棒、更高效的视觉感知系统。例如,可以用于开发能够自主学习和适应环境变化的机器人导航系统,或者用于视频监控和分析,自动检测和识别运动模式。

📄 摘要(原文)

The spatial and functional organization of the primate visual cortex is a fundamental problem in neuroscience. While recent computational frameworks like the Topographic Deep Artificial Neural Network (TDANN) have successfully modeled spatial organization in the ventral stream, the computational origins of the dorsal stream's distinct topographies, such as direction-selective maps in the middle temporal (MT) area, remain largely unresolved. In this work, we present a spatiotemporal TDANN to investigate whether MT topography is governed by the same universal principles. By training a 3D ResNet on naturalistic videos via a Momentum Contrast (MoCo) self-supervised paradigm alongside a biologically inspired spatial loss, we demonstrate the spontaneous emergence of brain-like direction maps and topological pinwheel structures. Crucially, we reveal that MT tuning properties, characterized by strong direction selectivity paired with a residual axial component, arise from a strict optimization trade-off between task-driven discriminative pressure and spatial regularization. The model's representations quantitatively match in vivo macaque MT physiological baselines, including direction selectivity index, circular variance, and pinwheel density. These findings unify the computational origins of the ventral and dorsal streams, establishing a general mechanism for cortical self-organization.