Algorithmic Consequences of Particle Filters for Sentence Processing: Amplified Garden-Paths and Digging-In Effects

📄 arXiv: 2603.11412v1 📥 PDF

作者: Amani Maina-Kilaas, Roger Levy

分类: cs.CL

发布日期: 2026-03-12

备注: 10 pages, 4 figures


💡 一句话要点

粒子滤波模型揭示句子处理中的歧义放大与“深挖”效应

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 粒子滤波 句子处理 结构歧义 花园路径效应 深挖效应

📋 核心要点

  1. 大型语言模型在预测句子处理难度时,未能充分考虑结构歧义的影响,导致预测偏差。
  2. 论文提出使用粒子滤波模型显式表示结构歧义,以更准确地模拟人类句子处理过程。
  3. 研究证明了粒子滤波模型能够放大花园路径效应,并产生与人类行为一致的“深挖”效应。

📝 摘要(中文)

惊奇理论认为,语言表征仅通过惊奇度瓶颈影响处理难度。目前对惊奇度的最佳估计来自大型语言模型,但它们没有明确的结构歧义表征。尽管LLM惊奇度能可靠地预测跨语言的阅读时间,但在结构预期被违反时,它会系统性地低估难度,这表明歧义表征与句子处理存在因果关系。粒子滤波模型提供了一种替代方案,其中结构假设被明确地表示为有限的粒子集。我们证明了粒子滤波模型的几个算法结果,包括花园路径效应的放大。最关键的是,我们证明了重采样(这些模型中的常见做法)固有地产生实时的“深挖”效应——即消歧难度随着歧义区域长度的增加而增加。“深挖”效应的幅度与粒子数量成反比:完全并行的模型预测没有这种效应。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在句子处理难度预测中,对结构歧义考虑不足的问题。现有方法,如基于LLM的惊奇度理论,虽然在一定程度上能预测阅读时间,但在遇到结构歧义时,会低估处理难度。这表明人类在句子处理过程中,对歧义的表征方式与LLM存在差异。

核心思路:论文的核心思路是使用粒子滤波模型来显式地表示和处理句子中的结构歧义。粒子滤波模型通过维护一组假设(粒子),每个粒子代表一种可能的句子结构,从而能够更好地捕捉歧义带来的不确定性。通过对这些粒子进行更新和重采样,模型能够模拟人类在遇到歧义时,对不同结构假设进行评估和选择的过程。

技术框架:粒子滤波模型的核心流程包括以下几个步骤:1) 初始化:创建一组粒子,每个粒子代表一种可能的句子结构。2) 预测:根据语言模型预测下一个词的概率,并更新每个粒子的权重。3) 观测:将预测的词与实际观测到的词进行比较,并根据相似度调整粒子的权重。4) 重采样:根据粒子的权重,对粒子进行重采样,保留权重较高的粒子,淘汰权重较低的粒子。这个过程不断循环,直到句子结束。

关键创新:论文的关键创新在于证明了粒子滤波模型能够产生两种重要的心理语言学现象:花园路径效应的放大和“深挖”效应。花园路径效应是指由于句子结构的歧义,导致读者在理解过程中产生错误的预期,从而增加处理难度。“深挖”效应是指消歧难度随着歧义区域长度的增加而增加。论文证明了重采样是产生“深挖”效应的关键机制,并且“深挖”效应的幅度与粒子数量成反比。

关键设计:论文中,粒子滤波模型的关键设计包括:1) 粒子的表示方式:每个粒子代表一种可能的句子结构,可以使用句法树或其他结构化表示。2) 语言模型:用于预测下一个词的概率,可以使用n-gram模型、神经网络语言模型等。3) 重采样策略:用于根据粒子的权重,选择保留哪些粒子。常用的重采样策略包括:多项式重采样、系统重采样等。4) 粒子数量:粒子数量决定了模型对歧义的表示能力,粒子数量越多,模型能够表示的歧义就越丰富。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过理论分析证明,粒子滤波模型能够放大花园路径效应,并产生与人类行为一致的“深挖”效应。更重要的是,论文揭示了重采样是产生“深挖”效应的关键机制,并且“深挖”效应的幅度与粒子数量成反比。这些发现为理解人类句子处理的认知机制提供了新的视角。

🎯 应用场景

该研究成果可应用于自然语言处理的多个领域,例如:提升机器翻译的准确性,尤其是在处理歧义句时;改进文本理解系统,使其更符合人类的阅读习惯;优化人机对话系统,使其能够更好地理解用户的意图。此外,该研究还有助于我们更深入地理解人类的语言处理机制。

📄 摘要(原文)

Under surprisal theory, linguistic representations affect processing difficulty only through the bottleneck of surprisal. Our best estimates of surprisal come from large language models, which have no explicit representation of structural ambiguity. While LLM surprisal robustly predicts reading times across languages, it systematically underpredicts difficulty when structural expectations are violated -- suggesting that representations of ambiguity are causally implicated in sentence processing. Particle filter models offer an alternative where structural hypotheses are explicitly represented as a finite set of particles. We prove several algorithmic consequences of particle filter models, including the amplification of garden-path effects. Most critically, we demonstrate that resampling, a common practice with these models, inherently produces real-time digging-in effects -- where disambiguation difficulty increases with ambiguous region length. Digging-in magnitude scales inversely with particle count: fully parallel models predict no such effect.