Cross-lingual robustness of LLM-brain alignment and its computational roots

📄 arXiv: 2605.21049v1 📥 PDF

作者: Ni Yang, Rui He, Philipp Homan, Iris Sommer, Davide Staub, Wolfram Hinzen

分类: cs.CL

发布日期: 2026-05-20


💡 一句话要点

研究表明LLM与大脑活动在跨语言场景下具有稳健的空间对齐性,但其计算根源尚不明确。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM-大脑对齐 跨语言研究 神经编码 自然语言理解 Transformer模型

📋 核心要点

  1. 现有研究对LLM与大脑的对齐主要集中在皮层,缺乏对皮层下区域以及跨语言一致性的深入探索。
  2. 本研究采用多语言全脑编码框架,考察了三种语言下LLM与大脑在自然故事听力过程中的对齐情况。
  3. 实验发现LLM与大脑在多个脑区存在跨语言的稳健对齐,但这种对齐不能用预测不确定性或表征几何来解释。

📝 摘要(中文)

大型语言模型(LLM)能够可靠地预测语言理解过程中的神经活动,并且Transformer的深度被解释为反映了皮层分层组织。然而,这种对齐是否延伸到皮层下区域,是否在不同语言之间存在空间重叠,以及这种对齐的计算根源是什么,仍然不清楚。本文使用了一种多语言、全脑编码框架,研究了在自然故事听力过程中,三种类型学上不同的语言(普通话、英语和法语)下的大脑-LLM对齐情况。结果表明,跨语言,基于Transformer的模型预测了分布在广泛的皮层功能网络(如边缘系统、腹侧注意网络、默认模式网络)和皮层下结构中的活动。空间对齐模式显示出显著的跨语言重叠,并且在模型层中保持基本稳定,与功能性皮层层次结构一致的层级进展有限。与之前的证据相反,上下文嵌入并没有优于静态嵌入。为了测试候选的计算解释,我们检查了逐层大脑得分是否反映了惊奇度和内在维度,从而反映了预测处理和信息压缩。这两种计算指标都没有反映神经对齐的轮廓。研究结果表明,大脑-LLM对齐在空间上是稳健的,并且在跨语言上是稳定的,但不能从预测不确定性或表征几何来解释。神经可预测性可能主要源于跨语言泛化的分布式词汇-语义对应关系,而不是直接反映共享的分层计算。

🔬 方法详解

问题定义:现有研究主要关注LLM与大脑皮层的对齐,忽略了皮层下区域,并且缺乏对跨语言场景下对齐情况的考察。现有方法难以解释LLM与大脑对齐的计算根源,例如,预测编码和信息压缩是否是驱动因素。

核心思路:本研究的核心思路是利用多语言全脑编码框架,分析LLM在不同语言(普通话、英语、法语)下预测大脑神经活动的能力,并考察这种预测能力在不同脑区和模型层之间的分布情况。同时,研究还探索了惊奇度和内在维度等计算指标与神经对齐之间的关系,以期揭示LLM与大脑对齐的潜在计算机制。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 收集三种语言的自然故事听力过程中的大脑神经活动数据(fMRI);2) 使用预训练的Transformer模型(LLM)对故事文本进行编码,提取不同层的嵌入表示;3) 利用编码模型,将LLM的嵌入表示映射到大脑神经活动,评估LLM对大脑活动的预测能力;4) 分析LLM预测能力在不同脑区和模型层之间的分布情况,以及跨语言的一致性;5) 计算惊奇度和内在维度等计算指标,并与神经对齐进行比较,以探索潜在的计算机制。

关键创新:本研究的关键创新在于:1) 首次系统地研究了LLM与大脑在跨语言场景下的对齐情况,并发现其具有稳健的空间对齐性;2) 考察了LLM与皮层下区域的对齐情况,扩展了现有研究的范围;3) 探索了惊奇度和内在维度等计算指标与神经对齐之间的关系,试图揭示LLM与大脑对齐的计算根源。

关键设计:研究中使用了预训练的Transformer模型作为LLM,并提取了不同层的嵌入表示。大脑神经活动数据通过fMRI获得。编码模型采用线性回归模型,将LLM的嵌入表示映射到大脑神经活动。惊奇度通过语言模型的预测概率计算得到,内在维度通过主成分分析(PCA)计算得到。

📊 实验亮点

实验结果表明,LLM能够预测分布在广泛的皮层功能网络和皮层下结构中的大脑活动,并且这种预测能力在跨语言场景下具有稳健的空间对齐性。然而,惊奇度和内在维度等计算指标并不能很好地解释神经对齐的轮廓。研究发现,神经可预测性可能主要源于跨语言泛化的分布式词汇-语义对应关系。

🎯 应用场景

该研究成果有助于深入理解人类语言处理的神经机制,并为开发更有效的人工智能系统提供启示。例如,可以借鉴大脑的语言处理方式,设计更高效的自然语言处理模型。此外,该研究还可以应用于临床神经科学,例如,用于诊断和治疗语言障碍。

📄 摘要(原文)

Large language models (LLMs) reliably predict neural activity during language comprehension and transformer depth has been interpreted as mirroring hierarchical cortical organization. However, it remains unclear whether such alignment extends to subcortical regions, overlaps spatially across languages, and what the computational roots of such alignment are. Here, we used a multilingual, whole-brain encoding framework to examine brain-LLM alignment across three typologically distinct languages: Mandarin, English, and French during naturalistic story listening. Our results show that across languages, transformer-based models predicted activity in a distributed landscape spanning widely distributed cortical functional networks like limbic, ventral attention, default mode network, and subcortical structures. Spatial alignment patterns showed substantial cross-linguistic overlap and remained largely stable across model layers, with limited layer progression consistent with functional cortical hierarchies. Contrary to previous evidence, contextual embeddings did not outperform static embeddings. To test candidate computational explanations, we examined whether layer-wise brain scores reflect surprisal and intrinsic dimensionality, and thereby predictive processing and information compression. Neither of these two computational metrics mirrored neural alignment profiles. Our findings suggest that brain-LLM alignment is spatially robust and cross-linguistically stable but not explainable from predictive uncertainty or representational geometry. Rather than directly reflecting shared hierarchical computation, neural predictivity may primarily arise from distributed lexical-semantic correspondences that generalize across languages.