Dual Alignment Between Language Model Layers and Human Sentence Processing
作者: Tatsuki Kuribayashi, Alex Warstadt, Yohei Oseki, Ethan Gotlieb Wilcox
分类: cs.CL
发布日期: 2026-04-20
备注: ACL 2026 main
💡 一句话要点
通过双重对齐语言模型层级与人类句子处理,提升句法复杂场景下的认知努力建模。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 句子处理 认知努力 句法歧义 阅读时间 双重对齐 Surprisal
📋 核心要点
- 现有方法在句法复杂场景中,使用surprisal低估了人类认知努力,无法准确建模人类句子处理。
- 论文核心思想是利用LLM不同层级对句子处理的不同模式,通过双重对齐来提升认知努力的建模。
- 实验表明,LLM后期层级更适合建模句法复杂场景,并探索了多层概率更新方法,提升阅读时间建模效果。
📝 摘要(中文)
最近的一项研究表明,大型语言模型(LLM)早期层级的surprisal可以有效地模拟人类句子处理行为,尤其是在句法上不具挑战性的结构中。本文旨在探讨这种内部层级的优势是否能扩展到更具句法挑战性的结构,因为据报道,surprisal在这些结构中低估了人类的认知努力。我们首先探索了能更好地估计英语句法歧义处理中人类认知努力的内部层级。实验表明,与自然阅读相比,后期层级能更好地估计这种认知努力,但仍然低估了人类数据。这种双重对齐揭示了人类和LLM中不同的句子处理模式:自然阅读采用类似于LLM早期层级的较弱预测,而句法挑战性处理需要更充分上下文化的表示,这可以通过LLM的后期层级更好地建模。受这些发现的启发,我们还探索了使用LLM浅层和深层的几种概率更新方法,展示了单层surprisal在阅读时间建模中的互补优势。
🔬 方法详解
问题定义:现有方法,特别是基于surprisal的方法,在建模人类句子处理时,对于句法简单的句子表现良好,但对于句法复杂的句子,尤其是存在歧义的句子,会低估人类的认知努力。这是因为surprisal主要依赖于局部信息,无法充分捕捉句法复杂性带来的全局上下文依赖。
核心思路:论文的核心思路是,人类在处理不同类型的句子时,可能采用不同的策略。对于简单的句子,可能采用一种较为浅层的、基于局部预测的策略,类似于LLM的早期层级;而对于复杂的句子,则需要更深层的、基于全局上下文的策略,类似于LLM的后期层级。因此,可以通过将LLM的不同层级与人类在不同句子处理模式下的认知努力进行对齐,来更准确地建模人类的句子处理过程。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择合适的句法歧义句子作为实验材料;2) 使用LLM提取不同层级的表示,并计算surprisal或其他概率更新指标;3) 收集人类在阅读这些句子时的阅读时间数据;4) 将LLM的输出与人类的阅读时间数据进行对比,评估不同层级对人类认知努力的建模能力;5) 探索多层概率更新方法,结合浅层和深层的信息,进一步提升建模效果。
关键创新:论文的关键创新在于提出了“双重对齐”的概念,即认为LLM的不同层级可以对应于人类不同的句子处理模式。这种观点挑战了以往认为单一的surprisal可以解释所有句子处理现象的观点,为更深入地理解人类和机器的句子处理机制提供了新的视角。
关键设计:论文的关键设计包括:1) 选择了具有代表性的句法歧义句子,例如花园路径句子;2) 探索了多种概率更新指标,例如基于KL散度的更新;3) 采用了线性回归等统计方法,将LLM的输出与人类的阅读时间数据进行关联,并评估模型的性能。
📊 实验亮点
实验结果表明,对于句法复杂的句子,LLM的后期层级比早期层级更能准确地估计人类的认知努力,但仍然存在低估现象。通过结合LLM浅层和深层的概率更新信息,可以进一步提升阅读时间建模的准确性,表明多层信息融合具有互补优势。具体性能提升数据未知。
🎯 应用场景
该研究成果可应用于认知科学、自然语言处理等领域。例如,可以帮助我们更好地理解人类的语言处理机制,改进语言模型的认知合理性,并开发更智能的阅读辅助工具和人机交互系统。此外,该研究对于评估和改进语言模型的句法理解能力也具有重要意义。
📄 摘要(原文)
A recent study (Kuribayashi et al., 2025) has shown that human sentence processing behavior, typically measured on syntactically unchallenging constructions, can be effectively modeled using surprisal from early layers of large language models (LLMs). This raises the question of whether such advantages of internal layers extend to more syntactically challenging constructions, where surprisal has been reported to underestimate human cognitive effort. In this paper, we begin by exploring internal layers that better estimate human cognitive effort observed in syntactic ambiguity processing in English. Our experiments show that, in contrast to naturalistic reading, later layers better estimate such a cognitive effort, but still underestimate the human data. This dual alignment sheds light on different modes of sentence processing in humans and LMs: naturalistic reading employs a somewhat weak prediction akin to earlier layers of LMs, while syntactically challenging processing requires more fully-contextualized representations, better modeled by later layers of LMs. Motivated by these findings, we also explore several probability-update measures using shallow and deep layers of LMs, showing a complementary advantage to single-layer's surprisal in reading time modeling.