Unveiling Secrets of Brain Function With Generative Modeling: Motion Perception in Primates & Cortical Network Organization in Mice
作者: Hadi Vafaii
分类: q-bio.NC, cs.AI
发布日期: 2024-12-25
备注: This is my PhD Dissertation, defended on November 3, 2023
💡 一句话要点
利用生成模型揭示大脑功能:灵长类动物的运动感知与小鼠皮层网络组织
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 生成模型 变分自编码器 运动感知 视觉皮层 分层推理
📋 核心要点
- 项目一旨在理解大脑如何编码外部世界特征,现有方法难以模拟视觉皮层的分层结构和无监督学习能力。
- 项目一核心思想是将Helmholtz的感知理论与分层VAE结合,模拟灵长类动物视觉皮层对运动刺激的反应,并无监督地识别运动的因果因素。
- 项目一实验表明,分层VAE能够以类似于灵长类动物大脑的方式感知运动,并能有效识别视网膜运动输入的潜在原因。
📝 摘要(中文)
本论文包含两个主要项目,均通过生成模型的应用来解决神经科学中的问题。项目一(第四章)探讨神经元如何编码外部世界的特征。我将Helmholtz的“感知作为无意识推断”——与变分自编码器(VAE)等现代生成模型相似——与视觉皮层的分层结构相结合。由此,我开发了一个分层VAE模型,并测试其模拟灵长类动物视觉皮层对运动刺激反应的能力。结果表明,分层VAE对运动的感知与灵长类动物大脑相似。此外,该模型以完全无监督的方式识别了视网膜运动输入的因果因素,例如物体运动和自身运动。总的来说,这些结果表明分层推理是大脑理解世界的基础,而分层VAE可以有效地模拟这种理解。项目二(第五章)研究了自发性大脑活动的时空结构及其对静息等大脑状态的反映。该项目利用同步fMRI和广域Ca2+成像数据,证明小鼠皮层可以分解为重叠的社群,大约一半的皮层区域属于多个社群。比较结果揭示了从fMRI和Ca2+信号推断出的网络之间的异同。
🔬 方法详解
问题定义:项目一旨在解决如何利用计算模型模拟灵长类动物视觉皮层对运动刺激的感知,并无监督地学习运动的潜在原因。现有方法通常难以捕捉视觉皮层的分层结构,也缺乏无监督学习的能力,无法有效模拟大脑的感知过程。
核心思路:论文的核心思路是将Helmholtz的“感知作为无意识推断”理论与现代生成模型(如VAE)相结合,并融入视觉皮层的分层结构。通过构建一个分层VAE模型,模拟大脑的推理过程,从而实现对运动刺激的有效感知和潜在原因的无监督学习。
技术框架:该方法的核心是一个分层VAE模型。该模型接收视网膜运动输入,通过编码器提取特征,然后通过解码器重构输入。模型包含多个层级,每一层级负责提取不同抽象程度的特征。通过训练模型,使其能够准确重构输入,并学习到运动的潜在原因。整体流程包括数据预处理、模型构建、模型训练和结果分析。
关键创新:最重要的技术创新点在于将Helmholtz的感知理论与分层VAE相结合,并将其应用于模拟灵长类动物的运动感知。与现有方法相比,该方法能够更好地捕捉视觉皮层的分层结构,并实现无监督学习,从而更有效地模拟大脑的感知过程。
关键设计:模型的关键设计包括:1) 分层结构:模型包含多个层级,每一层级负责提取不同抽象程度的特征;2) 无监督学习:模型通过重构输入进行训练,无需人工标注数据;3) 损失函数:模型使用重构误差作为损失函数,目标是最小化重构误差;4) 网络结构:编码器和解码器均采用卷积神经网络,以提取图像特征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,分层VAE模型能够以类似于灵长类动物大脑的方式感知运动。此外,该模型能够以完全无监督的方式识别视网膜运动输入的因果因素,例如物体运动和自身运动。这些结果表明,分层推理是大脑理解世界的基础,而分层VAE可以有效地模拟这种理解。虽然论文中没有给出具体的性能数据和提升幅度,但其定性结果表明该模型在模拟大脑感知方面具有显著优势。
🎯 应用场景
该研究的潜在应用领域包括:1) 计算机视觉:可以用于开发更智能的图像和视频分析算法;2) 机器人:可以用于提高机器人的感知能力,使其能够更好地理解周围环境;3) 神经科学:可以用于研究大脑的感知机制,并开发新的治疗神经系统疾病的方法。该研究的实际价值在于提供了一种新的理解大脑感知机制的工具,并为开发更智能的计算机视觉和机器人系统提供了理论基础。未来影响在于推动人工智能和神经科学的交叉发展。
📄 摘要(原文)
This Dissertation is comprised of two main projects, addressing questions in neuroscience through applications of generative modeling. Project #1 (Chapter 4) explores how neurons encode features of the external world. I combine Helmholtz's "Perception as Unconscious Inference" -- paralleled by modern generative models like variational autoencoders (VAE) -- with the hierarchical structure of the visual cortex. This combination leads to the development of a hierarchical VAE model, which I test for its ability to mimic neurons from the primate visual cortex in response to motion stimuli. Results show that the hierarchical VAE perceives motion similar to the primate brain. Additionally, the model identifies causal factors of retinal motion inputs, such as object- and self-motion, in a completely unsupervised manner. Collectively, these results suggest that hierarchical inference underlines the brain's understanding of the world, and hierarchical VAEs can effectively model this understanding. Project #2 (Chapter 5) investigates the spatiotemporal structure of spontaneous brain activity and its reflection of brain states like rest. Using simultaneous fMRI and wide-field Ca2+ imaging data, this project demonstrates that the mouse cortex can be decomposed into overlapping communities, with around half of the cortical regions belonging to multiple communities. Comparisons reveal similarities and differences between networks inferred from fMRI and Ca2+ signals. The introduction (Chapter 1) is divided similarly to this abstract: sections 1.1 to 1.8 provide background information about Project #1, and sections 1.9 to 1.13 are related to Project #2. Chapter 2 includes historical background, Chapter 3 provides the necessary mathematical background, and finally, Chapter 6 contains concluding remarks and future directions.