Neural Correlates of Language Models Are Specific to Human Language
作者: Iñigo Parra
分类: cs.CL
发布日期: 2025-10-03 (更新: 2025-11-13)
备注: To be presented at NeurIPS 2025 Workshops
💡 一句话要点
验证语言模型与人脑活动的关联性,并强调人类语言的独特性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 fMRI 人脑活动 表征相似性 人类语言 位置编码 神经语言学
📋 核心要点
- 现有研究表明语言模型与人脑活动存在关联,但可能受到维度灾难等因素的影响。
- 本研究通过降维、新相似性度量等方法,验证了这种关联的稳健性,并强调了人类语言的独特性。
- 实验结果表明,大脑表征与模型表征的相关性仅限于人类语言训练的模型,且依赖于模型中的位置编码。
📝 摘要(中文)
先前的研究表明,大型语言模型的隐藏状态与fMRI脑部反应之间存在相关性,尤其是在语言任务中。这些相关性被认为是这些模型与大脑状态在表征上相似的证据。本研究旨在验证这些先前结果的稳健性,并解决几个可能的疑虑。具体来说,本研究表明:(i)先前的结果在降维后仍然成立,因此不能归因于维度灾难;(ii)使用新的相似性度量时,先前的结果得到证实;(iii)大脑表征与模型表征之间的相关性专门针对在人类语言上训练的模型;(iv)结果依赖于模型中位置编码的存在。这些结果证实并加强了先前研究的结果,并有助于关于最先进大型语言模型的生物学合理性和可解释性的讨论。
🔬 方法详解
问题定义:现有研究发现大型语言模型与人脑活动在语言任务中存在相关性,但这种相关性可能受到维度灾难的影响,并且缺乏对人类语言独特性的验证。此外,模型结构(如位置编码)对这种相关性的影响也需要进一步考察。
核心思路:本研究旨在通过一系列实验,验证先前研究结果的稳健性,并深入探究人类语言的独特性在语言模型与人脑活动关联中的作用。核心思路是控制变量,例如通过降维消除维度灾难的影响,使用不同的相似性度量方法,以及比较在不同语言数据上训练的模型。
技术框架:本研究主要采用fMRI数据分析和语言模型表征分析相结合的方法。首先,收集受试者在执行语言任务时的fMRI数据。然后,使用不同的语言模型(包括在人类语言和非人类语言上训练的模型)提取表征向量。最后,计算fMRI数据和模型表征向量之间的相似性,并进行统计分析,以验证两者之间的相关性。
关键创新:本研究的关键创新在于验证了语言模型与人脑活动关联的特异性,即这种关联主要存在于在人类语言上训练的模型中。此外,研究还发现模型中的位置编码对这种关联至关重要。这些发现为理解语言模型的生物学合理性和可解释性提供了新的视角。
关键设计:研究中使用了多种语言模型,包括具有和不具有位置编码的模型,以及在人类语言和非人类语言上训练的模型。相似性度量方面,采用了多种方法,以确保结果的稳健性。fMRI数据分析方面,采用了标准的数据预处理和统计分析方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,语言模型与人脑活动的相关性在降维后依然存在,排除了维度灾难的影响。使用新的相似性度量方法也证实了先前的研究结果。更重要的是,大脑表征与模型表征的相关性高度依赖于模型是否在人类语言上训练,并且依赖于模型中位置编码的存在。这些发现强调了人类语言的独特性以及模型结构的重要性。
🎯 应用场景
该研究成果可应用于神经语言学、认知科学等领域,有助于深入理解人类语言的神经机制。此外,该研究还可以指导设计更符合人类认知方式的语言模型,提升人机交互的自然性和效率。未来的研究可以进一步探索不同语言模型结构对人脑活动的影响,并开发更有效的脑机接口技术。
📄 摘要(原文)
Previous work has shown correlations between the hidden states of large language models and fMRI brain responses, on language tasks. These correlations have been taken as evidence of the representational similarity of these models and brain states. This study tests whether these previous results are robust to several possible concerns. Specifically this study shows: (i) that the previous results are still found after dimensionality reduction, and thus are not attributable to the curse of dimensionality; (ii) that previous results are confirmed when using new measures of similarity; (iii) that correlations between brain representations and those from models are specific to models trained on human language; and (iv) that the results are dependent on the presence of positional encoding in the models. These results confirm and strengthen the results of previous research and contribute to the debate on the biological plausibility and interpretability of state-of-the-art large language models.