Grammaticality Judgments in Humans and Language Models: Revisiting Generative Grammar with LLMs
作者: Lars G. B. Johnsen
分类: cs.CL
发布日期: 2025-12-11
备注: 2 figures
💡 一句话要点
利用大型语言模型重新审视生成语法:LLM在语法判断任务中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 生成语法 语法判断 主语-助动词倒装 寄生缺口许可
📋 核心要点
- 传统生成语法依赖语法对比来推断内部层级语法,但缺乏对LLM是否具备类似能力的考察。
- 论文通过评估LLM在主语-助动词倒装和寄生缺口许可等经典结构上的表现,探究其结构敏感性。
- 实验结果表明,LLM能够区分语法和非语法变体,暗示其具备一定的结构理解能力,而非仅依赖线性顺序。
📝 摘要(中文)
本文探讨了句法结构的证据问题。在传统生成语法中,主语-助动词倒装和寄生缺口许可等语法对比被认为是内部层级语法的证据。本文测试了仅在表面形式上训练的大型语言模型(LLM)是否能重现这些对比,从而暗示其具有潜在的结构表示。我们关注两个经典结构:主语-助动词倒装(测试对主语边界的识别)和寄生缺口许可(测试抽象依赖结构)。我们使用提示语来评估包括GPT-4和LLaMA-3在内的模型,以引出可接受性评级。结果表明,LLM能够可靠地区分这两种结构中的语法和非语法变体,因此支持它们对结构敏感,而不仅仅是对线性顺序敏感。与认知知识不同的结构泛化,是从对表面形式的预测训练中产生的,表明对语法的函数敏感性,而无需显式编码。
🔬 方法详解
问题定义:论文旨在探究大型语言模型(LLM)是否能够像人类一样,通过学习表面形式来掌握句法结构,并对句子的语法性做出判断。现有方法主要依赖于人工设计的语法规则或基于统计的浅层模型,无法充分模拟人类的语言能力,并且缺乏对LLM在语法理解方面的深入研究。
核心思路:论文的核心思路是利用LLM对大量文本数据进行训练,然后通过特定的提示语(prompts)来引导LLM对句子的语法性进行评分。如果LLM能够区分语法正确的句子和语法错误的句子,则表明LLM具备一定的句法结构理解能力。这种方法避免了显式地对LLM进行语法规则的编码,而是让LLM通过自学习的方式来掌握语法知识。
技术框架:论文的技术框架主要包括以下几个步骤:1)选择合适的LLM,例如GPT-4和LLaMA-3;2)设计合适的提示语,用于引导LLM对句子的语法性进行评分;3)构建包含语法正确和语法错误的句子的测试集,测试集包含主语-助动词倒装和寄生缺口许可两种经典结构;4)使用LLM对测试集中的句子进行评分,并分析LLM的评分结果,判断LLM是否能够区分语法正确的句子和语法错误的句子。
关键创新:论文的关键创新在于利用LLM来重新审视生成语法,并验证LLM是否能够通过学习表面形式来掌握句法结构。与传统方法不同,论文没有显式地对LLM进行语法规则的编码,而是让LLM通过自学习的方式来掌握语法知识。这种方法更加符合人类学习语言的方式,并且能够更好地模拟人类的语言能力。
关键设计:论文的关键设计包括:1)选择GPT-4和LLaMA-3等先进的LLM;2)设计能够有效引导LLM进行语法判断的提示语;3)构建包含多种语法结构的测试集,以全面评估LLM的语法理解能力;4)采用合适的评价指标,例如准确率和F1值,来评估LLM的语法判断性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM(包括GPT-4和LLaMA-3)能够可靠地区分语法和非语法变体,表明它们对结构敏感,而不仅仅是对线性顺序敏感。这为LLM具备一定的句法结构理解能力提供了有力证据,并为利用LLM进行语法分析和生成提供了新的可能性。
🎯 应用场景
该研究成果可应用于自然语言处理的多个领域,例如语法纠错、机器翻译和对话系统。通过提升LLM的语法理解能力,可以提高这些应用系统的性能和用户体验。此外,该研究还可以为语言学研究提供新的视角,帮助人们更好地理解人类语言的本质。
📄 摘要(原文)
What counts as evidence for syntactic structure? In traditional generative grammar, systematic contrasts in grammaticality such as subject-auxiliary inversion and the licensing of parasitic gaps are taken as evidence for an internal, hierarchical grammar. In this paper, we test whether large language models (LLMs), trained only on surface forms, reproduce these contrasts in ways that imply an underlying structural representation. We focus on two classic constructions: subject-auxiliary inversion (testing recognition of the subject boundary) and parasitic gap licensing (testing abstract dependency structure). We evaluate models including GPT-4 and LLaMA-3 using prompts eliciting acceptability ratings. Results show that LLMs reliably distinguish between grammatical and ungrammatical variants in both constructions, and as such support that they are sensitive to structure and not just linear order. Structural generalizations, distinct from cognitive knowledge, emerge from predictive training on surface forms, suggesting functional sensitivity to syntax without explicit encoding.