Brain-language fusion enables interactive neural readout and in-silico experimentation
作者: Victoria Bosch, Daniel Anthes, Adrien Doerig, Sushrut Thorat, Peter König, Tim Christian Kietzmann
分类: cs.LG, q-bio.NC
发布日期: 2025-09-28 (更新: 2025-12-22)
备注: v2
💡 一句话要点
CorText:脑-语言融合实现交互式神经解读与计算机实验
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑-语言融合 神经解码 大型语言模型 fMRI 脑机接口
📋 核心要点
- 现有神经解码方法缺乏交互性,难以进行开放式探索和实验。
- CorText将神经活动融入LLM潜在空间,实现基于自然语言的交互式神经解码。
- 实验表明,CorText能生成准确图像描述,实现零样本泛化,并支持计算机微刺激实验。
📝 摘要(中文)
大型语言模型(LLMs)彻底改变了人机交互,并通过将图像等多模态信息嵌入到共享语言空间中得到了扩展。然而,神经解码仍然受到静态、非交互式方法的限制。我们引入了CorText,一个将神经活动直接整合到LLM潜在空间的框架,从而实现与大脑数据的开放式、自然语言交互。CorText在观看自然场景时记录的fMRI数据上进行训练,能够生成准确的图像描述,并且比对照方法更好地回答更详细的问题,同时仅访问神经数据。我们展示了CorText实现了超出训练期间所见语义类别的零样本泛化。计算机微刺激实验,能够对大脑活动进行反事实提示,揭示了大脑状态和语言输出之间一致且渐变的映射。这些进展标志着从被动解码向大脑活动和语言之间生成式、灵活接口的转变。
🔬 方法详解
问题定义:现有神经解码方法主要依赖于静态分析,缺乏与大脑活动进行交互的能力。这限制了我们对大脑功能的深入理解,也阻碍了基于神经活动的更灵活应用。传统的神经解码方法难以处理复杂场景和开放式问题,泛化能力有限。
核心思路:CorText的核心思路是将神经活动映射到大型语言模型的潜在空间中,从而利用LLM强大的语言生成和理解能力,实现与大脑活动的自然语言交互。通过将fMRI数据编码为LLM可以理解的向量表示,CorText能够根据神经活动生成相应的文本描述,并回答相关问题。这种方法允许研究人员以一种更直观和灵活的方式探索大脑活动。
技术框架:CorText框架主要包含以下几个模块:1) fMRI数据预处理模块:对原始fMRI数据进行降噪、校正等预处理操作。2) 神经编码器:将预处理后的fMRI数据编码为向量表示。3) LLM集成模块:将神经编码器的输出嵌入到LLM的潜在空间中。4) 语言生成模块:利用LLM生成与神经活动相关的文本描述或答案。5) 微刺激实验模块:通过对神经活动进行计算机模拟微刺激,观察LLM的输出变化。
关键创新:CorText的关键创新在于将神经活动直接整合到LLM的潜在空间中,从而实现了交互式的神经解码。这种方法不仅能够生成准确的图像描述,还能够回答更详细的问题,并支持计算机微刺激实验。此外,CorText还实现了超出训练期间所见语义类别的零样本泛化,表明其具有较强的泛化能力。
关键设计:CorText使用fMRI数据作为输入,通过一个神经编码器将其映射到LLM的潜在空间。LLM采用预训练的语言模型,并在fMRI数据上进行微调。损失函数包括语言建模损失和对比学习损失,用于保证生成文本的质量和神经活动与文本描述之间的一致性。计算机微刺激实验通过改变神经编码器的输出向量,模拟对大脑活动的微刺激,并观察LLM的输出变化。
📊 实验亮点
CorText在fMRI数据上训练后,能够生成准确的图像描述,并能回答比对照方法更详细的问题。CorText实现了超出训练期间所见语义类别的零样本泛化。计算机微刺激实验揭示了大脑状态和语言输出之间一致且渐变的映射关系,验证了CorText的有效性。
🎯 应用场景
CorText具有广泛的应用前景,包括:1) 脑机接口:实现更自然、更灵活的脑机交互方式。2) 神经疾病诊断:通过分析神经活动与语言表达之间的关系,辅助诊断神经疾病。3) 认知科学研究:为研究大脑功能和认知过程提供新的工具和方法。4) 个性化教育:根据学生的神经活动,提供个性化的学习内容和方式。
📄 摘要(原文)
Large language models (LLMs) have revolutionized human-machine interaction, and have been extended by embedding diverse modalities such as images into a shared language space. Yet, neural decoding has remained constrained by static, non-interactive methods. We introduce CorText, a framework that integrates neural activity directly into the latent space of an LLM, enabling open-ended, natural language interaction with brain data. Trained on fMRI data recorded during viewing of natural scenes, CorText generates accurate image captions and can answer more detailed questions better than controls, while having access to neural data only. We showcase that CorText achieves zero-shot generalization beyond semantic categories seen during training. In-silico microstimulation experiments, which enable counterfactual prompts on brain activity, reveal a consistent, and graded mapping between brain-state and language output. These advances mark a shift from passive decoding toward generative, flexible interfaces between brain activity and language.