Explanations of Large Language Models Explain Language Representations in the Brain

📄 arXiv: 2502.14671v3 📥 PDF

作者: Maryam Rahimi, Yadollah Yaghoobzadeh, Mohammad Reza Daliri

分类: cs.CL, cs.AI, q-bio.NC

发布日期: 2025-02-20 (更新: 2025-04-03)


💡 一句话要点

利用可解释AI,揭示大语言模型与大脑语言表征的关联

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可解释AI 神经语言学 fMRI 语言表征

📋 核心要点

  1. 现有研究主要关注LLM内部表征与神经活动的映射,缺乏对LLM决策过程的直接解释。
  2. 该研究利用XAI中的归因方法,量化LLM中先前词对后续词预测的影响,以此解释LLM的决策过程。
  3. 实验表明,LLM不同层级的解释与大脑语言网络的不同阶段活动相关,验证了XAI方法在神经语言学研究中的有效性。

📝 摘要(中文)

大型语言模型(LLMs)不仅表现出类似人类的性能,而且与大脑的语言处理机制共享计算原理。以往的研究主要集中在将LLMs的内部表征映射到神经活动。本文提出了一种新颖的方法,利用可解释AI(XAI)来加强这种联系。通过应用归因方法,量化了LLMs中先前词对下一个词预测的影响,并使用这些解释来预测参与者听叙述时的fMRI数据。研究发现,归因方法能够可靠地预测整个语言网络中的大脑活动,揭示了一种分层模式:早期层的解释与大脑的初始语言处理阶段对齐,而后期层对应于更高级的阶段。此外,对下一个词预测影响更大的层(反映在更高的归因分数中)表现出更强的大脑对齐。这些结果强调了XAI在探索语言神经基础方面的潜力,并表明大脑对齐可以用于评估解释方法的生物合理性。

🔬 方法详解

问题定义:现有研究主要关注LLM的表征与大脑活动的关联,但缺乏对LLM决策过程的解释。如何利用LLM的可解释性来理解大脑的语言处理机制是一个关键问题。现有方法难以直接解释LLM的内部运作,以及其与大脑语言处理的对应关系。

核心思路:该研究的核心思路是利用可解释AI(XAI)中的归因方法,量化LLM中每个词对下一个词预测的影响力。通过分析这些归因分数,可以理解LLM在生成语言时的决策过程,并将其与大脑的fMRI数据进行对比,从而揭示LLM与大脑语言表征之间的联系。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 使用LLM(具体模型未知)处理自然语言叙事文本;2) 应用归因方法(具体方法未知)计算每个词对下一个词预测的归因分数;3) 使用参与者在听取相同叙事文本时的fMRI数据;4) 将LLM的归因分数与fMRI数据进行对比分析,寻找两者之间的对应关系。

关键创新:该研究的关键创新在于将XAI方法应用于神经语言学研究,利用LLM的可解释性来理解大脑的语言处理机制。通过量化LLM中每个词对下一个词预测的影响力,可以更深入地了解LLM的决策过程,并将其与大脑活动进行对比,从而揭示LLM与大脑语言表征之间的联系。

关键设计:具体归因方法、LLM模型选择、fMRI数据处理方法、以及对比分析的具体指标等关键设计细节未知。研究中使用了fMRI数据来验证LLM的解释与大脑活动的相关性。具体如何量化“大脑对齐”程度,以及如何评估解释方法的生物合理性,细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,LLM的归因解释能够可靠地预测大脑语言网络中的活动。早期层的解释与大脑的初始语言处理阶段对齐,而后期层对应于更高级的阶段。此外,对下一个词预测影响更大的层表现出更强的大脑对齐,表明归因分数与大脑活动之间存在显著相关性。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于神经语言学研究,帮助理解大脑的语言处理机制。此外,该方法还可以用于评估LLM的生物合理性,指导LLM的设计和优化,使其更符合人类的认知特点。未来,该研究或可用于开发更智能、更自然的语言交互系统。

📄 摘要(原文)

Large language models (LLMs) not only exhibit human-like performance but also share computational principles with the brain's language processing mechanisms. While prior research has focused on mapping LLMs' internal representations to neural activity, we propose a novel approach using explainable AI (XAI) to strengthen this link. Applying attribution methods, we quantify the influence of preceding words on LLMs' next-word predictions and use these explanations to predict fMRI data from participants listening to narratives. We find that attribution methods robustly predict brain activity across the language network, revealing a hierarchical pattern: explanations from early layers align with the brain's initial language processing stages, while later layers correspond to more advanced stages. Additionally, layers with greater influence on next-word prediction$\unicode{x2014}$reflected in higher attribution scores$\unicode{x2014}$demonstrate stronger brain alignment. These results underscore XAI's potential for exploring the neural basis of language and suggest brain alignment for assessing the biological plausibility of explanation methods.