Community size rather than grammatical complexity better predicts Large Language Model accuracy in a novel Wug Test
作者: Nikoleta Pantelidou, Evelina Leivada, Raquel Montero, Paolo Morosi
分类: cs.CL
发布日期: 2025-10-14 (更新: 2026-01-19)
💡 一句话要点
Wug测试揭示:语言模型准确率受社群规模而非语法复杂度主导
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 形态泛化 Wug测试 多语言 语言资源 社群规模 数据可用性
📋 核心要点
- 大型语言模型(LLM)的语言能力备受关注,但其泛化能力和影响因素仍待深入研究。
- 本研究采用多语言Wug测试,评估LLM在新词形态泛化任务中的准确性,并与人类表现对比。
- 实验表明,模型准确率与语言社群规模和数据可用性相关,而非语法复杂性,揭示了数据驱动的本质。
📝 摘要(中文)
本研究探讨了大型语言模型在形态泛化任务中的表现,该任务涉及新词。通过对Wug测试进行多语言改编,在四种部分不相关的语言(加泰罗尼亚语、英语、希腊语和西班牙语)上测试了六个模型,并与人类使用者进行了比较。目的是确定模型准确率是否接近人类水平,以及它主要受语言复杂性还是语言社群规模(影响可用训练数据的数量)的影响。结果表明,这些模型能够以类似人类的准确率将形态过程推广到未见过的单词。然而,准确率模式与社群规模和数据可用性更密切相关,而非结构复杂性。特别是,西班牙语和英语等拥有较大使用者社群和更强数字表示的语言,其准确率高于加泰罗尼亚语和希腊语等资源较少的语言。总的来说,我们的研究结果表明,模型行为主要受语言资源的丰富程度驱动,而非对语法复杂性的敏感性,这反映了一种仅在表面上类似于人类语言能力的表现形式。
🔬 方法详解
问题定义:现有研究对大型语言模型(LLM)的语言能力,特别是其形态泛化能力存在争议。现有方法难以区分模型性能是由语言本身的复杂性驱动,还是由训练数据的规模和质量驱动。本研究旨在通过控制语言复杂性,探究数据规模对LLM形态泛化能力的影响。
核心思路:本研究的核心思路是使用Wug测试,这是一种经典的心理语言学方法,用于评估人类和模型对新词的形态泛化能力。通过在多种语言上进行测试,并控制语言的结构复杂性,研究人员可以评估模型性能与语言社群规模和数据可用性之间的关系。如果模型在数据资源丰富的语言上表现更好,则表明数据规模是关键驱动因素。
技术框架:该研究采用多语言改编的Wug测试。首先,为四种语言(加泰罗尼亚语、英语、希腊语和西班牙语)设计了新词和相应的形态变化规则。然后,使用这些新词对六个大型语言模型进行测试,要求模型生成新词的正确形态。最后,将模型性能与人类的表现进行比较,并分析模型准确率与语言社群规模、数据可用性和结构复杂性之间的关系。
关键创新:本研究的关键创新在于使用多语言Wug测试来区分语言复杂性和数据规模对LLM性能的影响。以往的研究通常只关注单一语言或少数几种语言,难以区分这两种因素的影响。通过在多种语言上进行测试,并控制语言的结构复杂性,本研究能够更清晰地揭示数据规模对LLM形态泛化能力的影响。
关键设计:关键设计包括:1)选择四种语言,这些语言在结构复杂性和数据资源方面存在差异;2)设计新词和形态变化规则,确保测试的公平性和可比性;3)使用多种大型语言模型进行测试,以确保结果的稳健性;4)将模型性能与人类的表现进行比较,以评估模型是否能够达到人类水平的泛化能力。
📊 实验亮点
实验结果表明,大型语言模型在形态泛化任务中的准确率与语言社群规模和数据可用性密切相关。例如,在西班牙语和英语等数据资源丰富的语言上,模型表现明显优于加泰罗尼亚语和希腊语等低资源语言。这表明数据规模是影响LLM语言能力的关键因素,而非语言本身的复杂性。
🎯 应用场景
该研究结果有助于更好地理解大型语言模型的语言能力,并为模型训练和评估提供指导。例如,在开发低资源语言的语言模型时,需要特别关注数据增强和迁移学习技术。此外,该研究也为评估语言模型的真实语言能力提供了新的方法,有助于避免过度依赖模型在常见任务上的表现。
📄 摘要(原文)
The linguistic abilities of Large Language Models are a matter of ongoing debate. This study contributes to this discussion by investigating model performance in a morphological generalization task that involves novel words. Using a multilingual adaptation of the Wug Test, six models were tested across four partially unrelated languages (Catalan, English, Greek, and Spanish) and compared with human speakers. The aim is to determine whether model accuracy approximates human competence and whether it is shaped primarily by linguistic complexity or by the size of the linguistic community, which affects the quantity of available training data. Consistent with previous research, the results show that the models are able to generalize morphological processes to unseen words with human-like accuracy. However, accuracy patterns align more closely with community size and data availability than with structural complexity, refining earlier claims in the literature. In particular, languages with larger speaker communities and stronger digital representation, such as Spanish and English, revealed higher accuracy than less-resourced ones like Catalan and Greek. Overall, our findings suggest that model behavior is mainly driven by the richness of linguistic resources rather than by sensitivity to grammatical complexity, reflecting a form of performance that resembles human linguistic competence only superficially.