Large Language Models Are Human-Like Internally

📄 arXiv: 2502.01615v2 📥 PDF

作者: Tatsuki Kuribayashi, Yohei Oseki, Souhaib Ben Taieb, Kentaro Inui, Timothy Baldwin

分类: cs.CL

发布日期: 2025-02-03 (更新: 2025-07-26)

备注: This is a pre-MIT Press publication version of the paper


💡 一句话要点

大型语言模型内部机制更贴近人类认知过程,优于以往认知建模研究结论

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 认知建模 机制可解释性 人类句子处理 神经生理数据

📋 核心要点

  1. 现有认知建模研究表明大型语言模型与人类阅读行为拟合度差,质疑其认知合理性。
  2. 论文通过机制可解释性分析,发现大型语言模型内部层与人类句子处理数据更吻合。
  3. 实验表明,内部层在行为和神经生理测量上与人类数据一致性更好,推翻了之前的结论。

📝 摘要(中文)

近期认知建模研究表明,大型语言模型(LLMs)与人类阅读行为的拟合度较差,引发了对其认知合理性的质疑。本文通过机制可解释性的视角重新审视这一论点,认为之前的结论因过度关注LLMs的最终层而存在偏差。分析表明,从大型LLMs内部层导出的下一个词概率与人类句子处理数据的一致性,与小型LLMs相当甚至更好。这种一致性在行为(自我调节阅读时间、注视持续时间、MAZE任务处理时间)和神经生理(N400脑电位)测量中均保持一致,挑战了早期混合结果,表明大型LLMs的认知合理性被低估了。此外,我们首次发现了LM层与人类测量之间的一种有趣关系:早期层与快速注视持续时间更密切相关,而后期层与相对较慢的信号(如N400电位和MAZE处理时间)更好地对齐。这项工作为机制可解释性和认知建模交叉领域的跨学科研究开辟了新途径。

🔬 方法详解

问题定义:现有认知建模研究主要关注大型语言模型的输出层,并基于此得出大型语言模型与人类认知过程不符的结论。这些研究忽略了语言模型内部层可能蕴含的与人类认知过程更一致的信息。因此,该论文旨在通过分析大型语言模型内部层,重新评估其认知合理性,并挑战之前研究的结论。

核心思路:论文的核心思路是利用机制可解释性方法,深入分析大型语言模型内部不同层的表征,并将其与人类句子处理过程中的行为和神经生理数据进行对比。通过这种方式,论文试图揭示大型语言模型内部是否存在与人类认知过程更吻合的层,从而推翻之前基于输出层的负面结论。论文假设不同的层可能对应人类认知过程的不同阶段,例如早期层对应快速的感知过程,而后期层对应更高级的认知过程。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择不同大小的语言模型作为研究对象。2) 从语言模型的不同层提取下一个词的概率分布。3) 收集人类在句子处理过程中的行为数据(如自我调节阅读时间、注视持续时间、MAZE任务处理时间)和神经生理数据(如N400脑电位)。4) 将语言模型内部层的概率分布与人类数据进行对比,评估它们之间的一致性。5) 分析不同层与不同类型的人类数据之间的关系,例如早期层与快速注视持续时间的关系,后期层与N400电位的关系。

关键创新:论文最重要的技术创新点在于将机制可解释性方法应用于认知建模研究,通过分析大型语言模型内部层,揭示了其与人类认知过程的潜在联系。与以往研究仅关注输出层不同,该论文深入挖掘了语言模型内部的表征,并发现了不同层与不同类型的人类数据之间的对应关系。这种方法为重新评估大型语言模型的认知合理性提供了新的视角。

关键设计:论文的关键设计包括:1) 选择合适的语言模型和人类数据,确保它们具有可比性。2) 使用适当的评估指标来衡量语言模型内部层与人类数据之间的一致性。3) 设计合理的实验方案,以验证不同层与不同类型的人类数据之间的关系。例如,论文可能使用了相关性分析、回归分析等方法来量化这种关系。具体的参数设置、损失函数和网络结构等细节取决于所使用的语言模型和评估指标,论文中应该有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,大型语言模型内部层与人类句子处理数据的一致性,与小型语言模型相当甚至更好。早期层与快速注视持续时间更密切相关,而后期层与相对较慢的信号(如N400电位和MAZE处理时间)更好地对齐。这些结果挑战了早期研究的结论,表明大型语言模型的认知合理性被低估。

🎯 应用场景

该研究成果可应用于改进语言模型的认知合理性,使其更符合人类的思维方式。此外,该研究还可促进神经语言学和人工智能的交叉研究,为理解人类认知过程提供新的工具和视角。未来,可以利用该方法设计更高效、更自然的语言交互系统。

📄 摘要(原文)

Recent cognitive modeling studies have reported that larger language models (LMs) exhibit a poorer fit to human reading behavior (Oh and Schuler, 2023b; Shain et al., 2024; Kuribayashi et al., 2024), leading to claims of their cognitive implausibility. In this paper, we revisit this argument through the lens of mechanistic interpretability and argue that prior conclusions were skewed by an exclusive focus on the final layers of LMs. Our analysis reveals that next-word probabilities derived from internal layers of larger LMs align with human sentence processing data as well as, or better than, those from smaller LMs. This alignment holds consistently across behavioral (self-paced reading times, gaze durations, MAZE task processing times) and neurophysiological (N400 brain potentials) measures, challenging earlier mixed results and suggesting that the cognitive plausibility of larger LMs has been underestimated. Furthermore, we first identify an intriguing relationship between LM layers and human measures: earlier layers correspond more closely with fast gaze durations, while later layers better align with relatively slower signals such as N400 potentials and MAZE processing times. Our work opens new avenues for interdisciplinary research at the intersection of mechanistic interpretability and cognitive modeling.