Large Language Model probabilities cannot distinguish between possible and impossible language

📄 arXiv: 2509.15114v1 📥 PDF

作者: Evelina Leivada, Raquel Montero, Paolo Morosi, Natalia Moskvina, Tamara Serrano, Marcel Aguilar, Fritz Guenther

分类: cs.CL

发布日期: 2025-09-18


💡 一句话要点

大型语言模型无法通过概率区分语法上可能和不可能的语言

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 语法知识 Surprisal 语言模型评估 句法分析

📋 核心要点

  1. 现有研究在测试LLM区分语法可能与不可能语言时,面临测试材料可靠性的挑战。
  2. 该研究通过分析模型内部表示和概率,探究LLM如何区分语法和非语法结构。
  3. 实验结果表明,LLM无法通过概率可靠区分语法错误,语义和语用错误表现出更高的surprisal。

📝 摘要(中文)

本文研究大型语言模型(LLM)区分语法上可能和不可能的语言的能力。尽管有证据表明模型对语法限制敏感,但这些证据的测试材料的可靠性受到质疑。本文使用模型内部表示来直接探究LLM如何表示“语法-非语法”的区别。通过一项新的基准测试,从四个模型中提取概率,并计算最小对的surprisal差异,将语法正确的句子的概率与(i)低频语法句子,(ii)语法错误的句子,(iii)语义上奇怪的句子和(iv)语用上奇怪的句子的概率进行对比。如果字符串概率可以作为语法限制的代理,那么语法错误的条件应该在语言违规条件中脱颖而出,显示出surprisal率的峰值。结果表明,语法错误的提示没有独特的surprisal特征,因为语义和语用上奇怪的条件始终显示出更高的surprisal。因此,本文证明概率不能作为模型内部语法知识表示的可靠代理。因此,关于模型能够区分可能和不可能的语言的说法需要通过不同的方法进行验证。

🔬 方法详解

问题定义:现有方法难以可靠地评估大型语言模型区分语法上可能和不可能的语言的能力。以往的研究依赖于特定的测试材料,这些材料的质量和代表性可能存在偏差,导致结论的可靠性受到质疑。因此,需要一种更直接、更可靠的方法来探究模型内部对语法规则的理解。

核心思路:本文的核心思路是绕过外部测试材料的限制,直接分析大型语言模型内部的概率分布,以此来判断模型是否能够区分语法正确的句子和各种类型的语言违规句子。通过比较不同类型句子的surprisal值,可以推断模型对不同类型语言违规的敏感程度。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 从四个不同的LLM中提取句子概率。2) 构建包含语法正确、低频语法、语法错误、语义奇怪和语用奇怪的句子对。3) 计算最小对的surprisal差异,即比较语法正确句子和各种违规句子的surprisal值。4) 分析不同类型违规句子的surprisal值,判断模型是否能够区分语法错误和其他类型的语言违规。

关键创新:该研究的关键创新在于使用模型内部的概率分布作为探究模型语法知识的直接手段。与以往依赖外部测试材料的方法不同,该方法避免了测试材料偏差带来的影响,能够更直接地反映模型内部对语法规则的理解。此外,该研究还提出了一个新的基准测试,用于评估模型区分不同类型语言违规的能力。

关键设计:该研究的关键设计包括:1) 选择了四个不同的LLM,以确保结果的普遍性。2) 构建了包含多种类型语言违规的句子对,以全面评估模型的能力。3) 使用surprisal值作为衡量模型对句子不确定性的指标。4) 通过统计分析,比较不同类型违规句子的surprisal值,以判断模型是否能够区分语法错误。

📊 实验亮点

实验结果表明,大型语言模型无法通过概率可靠地区分语法错误和其他类型的语言违规(如语义和语用错误)。语义和语用上奇怪的句子反而表现出更高的surprisal值,这表明模型对语义和语用错误的敏感度可能高于语法错误。该研究否定了概率可以作为模型内部语法知识表示的可靠代理的观点。

🎯 应用场景

该研究成果可应用于改进大型语言模型的语法纠错能力,提升自然语言处理系统的鲁棒性。通过更深入地理解模型内部的语法知识表示,可以开发更有效的训练方法,使模型更好地理解和生成符合语法规则的文本。此外,该研究也为评估和比较不同语言模型的语法能力提供了一种新的方法。

📄 摘要(原文)

A controversial test for Large Language Models concerns the ability to discern possible from impossible language. While some evidence attests to the models' sensitivity to what crosses the limits of grammatically impossible language, this evidence has been contested on the grounds of the soundness of the testing material. We use model-internal representations to tap directly into the way Large Language Models represent the 'grammatical-ungrammatical' distinction. In a novel benchmark, we elicit probabilities from 4 models and compute minimal-pair surprisal differences, juxtaposing probabilities assigned to grammatical sentences to probabilities assigned to (i) lower frequency grammatical sentences, (ii) ungrammatical sentences, (iii) semantically odd sentences, and (iv) pragmatically odd sentences. The prediction is that if string-probabilities can function as proxies for the limits of grammar, the ungrammatical condition will stand out among the conditions that involve linguistic violations, showing a spike in the surprisal rates. Our results do not reveal a unique surprisal signature for ungrammatical prompts, as the semantically and pragmatically odd conditions consistently show higher surprisal. We thus demonstrate that probabilities do not constitute reliable proxies for model-internal representations of syntactic knowledge. Consequently, claims about models being able to distinguish possible from impossible language need verification through a different methodology.