Explanations of Large Language Models Explain Language Representations in the Brain

作者: Maryam Rahimi, Yadollah Yaghoobzadeh, Mohammad Reza Daliri

分类: cs.CL, cs.AI, q-bio.NC

发布日期: 2025-02-20 (更新: 2025-04-03)

💡 一句话要点

利用可解释AI，揭示大语言模型与大脑语言表征的关联

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可解释AI 神经语言学 fMRI 语言表征

📋 核心要点

现有研究主要关注LLM内部表征与神经活动的映射，缺乏对LLM决策过程的直接解释。
该研究利用XAI中的归因方法，量化LLM中先前词对后续词预测的影响，以此解释LLM的决策过程。
实验表明，LLM不同层级的解释与大脑语言网络的不同阶段活动相关，验证了XAI方法在神经语言学研究中的有效性。

📝 摘要（中文）

大型语言模型(LLMs)不仅表现出类似人类的性能，而且与大脑的语言处理机制共享计算原理。以往的研究主要集中在将LLMs的内部表征映射到神经活动。本文提出了一种新颖的方法，利用可解释AI(XAI)来加强这种联系。通过应用归因方法，量化了LLMs中先前词对下一个词预测的影响，并使用这些解释来预测参与者听叙述时的fMRI数据。研究发现，归因方法能够可靠地预测整个语言网络中的大脑活动，揭示了一种分层模式：早期层的解释与大脑的初始语言处理阶段对齐，而后期层对应于更高级的阶段。此外，对下一个词预测影响更大的层（反映在更高的归因分数中）表现出更强的大脑对齐。这些结果强调了XAI在探索语言神经基础方面的潜力，并表明大脑对齐可以用于评估解释方法的生物合理性。

🔬 方法详解

问题定义：现有研究主要关注LLM的表征与大脑活动的关联，但缺乏对LLM决策过程的解释。如何利用LLM的可解释性来理解大脑的语言处理机制是一个关键问题。现有方法难以直接解释LLM的内部运作，以及其与大脑语言处理的对应关系。

核心思路：该研究的核心思路是利用可解释AI（XAI）中的归因方法，量化LLM中每个词对下一个词预测的影响力。通过分析这些归因分数，可以理解LLM在生成语言时的决策过程，并将其与大脑的fMRI数据进行对比，从而揭示LLM与大脑语言表征之间的联系。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 使用LLM（具体模型未知）处理自然语言叙事文本；2) 应用归因方法（具体方法未知）计算每个词对下一个词预测的归因分数；3) 使用参与者在听取相同叙事文本时的fMRI数据；4) 将LLM的归因分数与fMRI数据进行对比分析，寻找两者之间的对应关系。

关键创新：该研究的关键创新在于将XAI方法应用于神经语言学研究，利用LLM的可解释性来理解大脑的语言处理机制。通过量化LLM中每个词对下一个词预测的影响力，可以更深入地了解LLM的决策过程，并将其与大脑活动进行对比，从而揭示LLM与大脑语言表征之间的联系。

关键设计：具体归因方法、LLM模型选择、fMRI数据处理方法、以及对比分析的具体指标等关键设计细节未知。研究中使用了fMRI数据来验证LLM的解释与大脑活动的相关性。具体如何量化“大脑对齐”程度，以及如何评估解释方法的生物合理性，细节未知。

🖼️ 关键图片

📊 实验亮点

研究发现，LLM的归因解释能够可靠地预测大脑语言网络中的活动。早期层的解释与大脑的初始语言处理阶段对齐，而后期层对应于更高级的阶段。此外，对下一个词预测影响更大的层表现出更强的大脑对齐，表明归因分数与大脑活动之间存在显著相关性。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于神经语言学研究，帮助理解大脑的语言处理机制。此外，该方法还可以用于评估LLM的生物合理性，指导LLM的设计和优化，使其更符合人类的认知特点。未来，该研究或可用于开发更智能、更自然的语言交互系统。

📄 摘要（原文）

Large language models (LLMs) not only exhibit human-like performance but also share computational principles with the brain's language processing mechanisms. While prior research has focused on mapping LLMs' internal representations to neural activity, we propose a novel approach using explainable AI (XAI) to strengthen this link. Applying attribution methods, we quantify the influence of preceding words on LLMs' next-word predictions and use these explanations to predict fMRI data from participants listening to narratives. We find that attribution methods robustly predict brain activity across the language network, revealing a hierarchical pattern: explanations from early layers align with the brain's initial language processing stages, while later layers correspond to more advanced stages. Additionally, layers with greater influence on next-word prediction$\unicode{x2014}$reflected in higher attribution scores$\unicode{x2014}$demonstrate stronger brain alignment. These results underscore XAI's potential for exploring the neural basis of language and suggest brain alignment for assessing the biological plausibility of explanation methods.

Explanations of Large Language Models Explain Language Representations in the Brain

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理