Finding Shared Decodable Concepts and their Negations in the Brain
作者: Cory Efird, Alex Murphy, Joel Zylberberg, Alona Fyshe
分类: cs.LG, cs.CV
发布日期: 2024-05-27 (更新: 2024-10-01)
💡 一句话要点
提出基于对比学习和聚类的脑活动解码方法,发现大脑中共享的可解码概念及其否定概念。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑活动解码 对比学习 聚类算法 视觉语义表征 CLIP模型
📋 核心要点
- 现有方法难以全面识别大脑中不同区域对视觉语义的偏好,仅发现少数语义相关的皮层区域。
- 利用CLIP模型,将自然图像观看时的脑活动映射到CLIP嵌入空间,并通过改进的DBSCAN聚类识别共享可解码概念(SDC)。
- 实验发现了已知的视觉特征(如方向选择性)和视觉概念(如面部、地点),并揭示了新的区域,例如EBA中对腿/手的选择性。
📝 摘要(中文)
先前的工作已经提供了大脑中功能定位的证据,即不同的解剖区域优先激活以响应特定类型的视觉输入。例如,梭状回面部区域优先激活以响应包含面部的视觉刺激。然而,视觉语义的范围是广泛的,并且到目前为止,在人脑中仅识别出少数语义调整的皮质区域。我们使用多模态(自然语言和图像)神经网络架构(CLIP)训练了一个高度精确的对比模型,该模型将自然图像观看期间的脑反应映射到CLIP嵌入。然后,我们使用DBSCAN聚类算法的一种新颖的改编来聚类这些参与者特定的对比模型的参数。这揭示了我们称之为共享可解码概念(SDC)的内容:CLIP空间中的聚类,这些聚类可以从多个参与者的常见体素集中解码。检查与每个SDC聚类最相关和最不相关的图像,可以让我们更深入地了解每个SDC的语义属性。我们注意到先前报告的视觉特征(例如,早期视觉皮层中的方向调整)以及视觉语义概念(例如,面部、地点和身体)的SDC。在我们方法为视觉语义概念找到多个聚类的情况下,最不相关的图像使我们能够区分混淆因素。例如,我们发现了两个食物图像聚类,一个由颜色驱动,另一个由形状驱动。我们还发现了以前未报告的区域,例如外侧纹状体身体区域(EBA)中针对腿/手进行调整的区域,以及右侧顶内沟中对数量的敏感性等等。因此,我们的对比学习方法通过利用多模态神经网络表示和聚类算法的新颖改编,更好地表征了大脑中新的和现有的视觉语义表示。
🔬 方法详解
问题定义:论文旨在解决大脑中视觉语义表征的全面识别问题。现有方法主要依赖于人工定义的特征或预先设定的类别,难以发现大脑中自发形成的、更细粒度的语义表征。此外,不同个体的大脑活动存在差异,如何找到跨个体共享的语义表征也是一个挑战。
核心思路:论文的核心思路是利用对比学习将脑活动与视觉语义空间对齐,然后通过聚类方法发现共享的可解码概念(SDC)。通过对比学习,将脑活动模式与对应的图像语义嵌入联系起来,从而避免了人工特征工程的局限性。通过聚类,可以发现大脑中自发形成的语义类别,并识别跨个体共享的表征模式。
技术框架:整体框架包括以下几个主要步骤:1) 使用CLIP模型提取图像的视觉语义嵌入;2) 收集参与者观看自然图像时的脑活动数据(fMRI);3) 训练参与者特定的对比模型,将脑活动映射到CLIP嵌入空间;4) 使用改进的DBSCAN算法对对比模型的参数进行聚类,得到SDC;5) 分析每个SDC对应的图像,解释其语义含义。
关键创新:论文的关键创新在于:1) 将对比学习应用于脑活动解码,避免了人工特征工程的局限性;2) 提出了一种改进的DBSCAN算法,能够有效地聚类对比模型的参数,发现共享的语义表征;3) 发现了大脑中新的视觉语义表征区域,例如EBA中对腿/手的选择性。
关键设计:论文的关键设计包括:1) 使用CLIP模型作为视觉语义嵌入的来源,CLIP模型在大量图像-文本数据上进行训练,能够提供丰富的语义信息;2) 使用对比损失函数训练脑活动解码模型,鼓励相似的图像-脑活动对在嵌入空间中靠近,不相似的图像-脑活动对远离;3) 对DBSCAN算法进行改进,使其能够适应对比模型参数的聚类,并有效地处理噪声数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够有效地解码大脑中的视觉语义表征,并发现了新的脑区功能。例如,研究发现外侧纹状体身体区域(EBA)对腿/手等身体部位具有选择性,右侧顶内沟对数量具有敏感性。此外,该方法还能够区分同一语义概念的不同属性,例如区分食物图像的颜色和形状。
🎯 应用场景
该研究成果可应用于脑机接口、神经疾病诊断和治疗等领域。例如,可以利用解码出的视觉语义表征,设计更自然、更高效的脑机接口系统。此外,该方法还可以用于研究神经疾病患者的视觉语义表征异常,为疾病诊断和治疗提供新的思路。
📄 摘要(原文)
Prior work has offered evidence for functional localization in the brain; different anatomical regions preferentially activate for certain types of visual input. For example, the fusiform face area preferentially activates for visual stimuli that include a face. However, the spectrum of visual semantics is extensive, and only a few semantically-tuned patches of cortex have so far been identified in the human brain. Using a multimodal (natural language and image) neural network architecture (CLIP) we train a highly accurate contrastive model that maps brain responses during naturalistic image viewing to CLIP embeddings. We then use a novel adaptation of the DBSCAN clustering algorithm to cluster the parameters of these participant-specific contrastive models. This reveals what we call Shared Decodable Concepts (SDCs): clusters in CLIP space that are decodable from common sets of voxels across multiple participants. Examining the images most and least associated with each SDC cluster gives us additional insight into the semantic properties of each SDC. We note SDCs for previously reported visual features (e.g. orientation tuning in early visual cortex) as well as visual semantic concepts such as faces, places and bodies. In cases where our method finds multiple clusters for a visuo-semantic concept, the least associated images allow us to dissociate between confounding factors. For example, we discovered two clusters of food images, one driven by color, the other by shape. We also uncover previously unreported areas such as regions of extrastriate body area (EBA) tuned for legs/hands and sensitivity to numerosity in right intraparietal sulcus, and more. Thus, our contrastive-learning methodology better characterizes new and existing visuo-semantic representations in the brain by leveraging multimodal neural network representations and a novel adaptation of clustering algorithms.