Heterogeneity in Formal Linguistic Competence of Language Models: Is Data the Real Bottleneck?
作者: H S V N S Kowndinya Renduchintala, Sumit Bhatia
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-04-20
备注: ACL'26 (Findings)
🔗 代码/项目: GITHUB
💡 一句话要点
通过注入少量针对性数据,显著提升小规模语言模型在特定语言现象上的理解能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 形式语言能力 数据增强 预训练 BLiMP基准
📋 核心要点
- 大型语言模型在不同语言现象上的掌握程度差异大,部分现象表现不佳,原因尚不明确。
- 通过向预训练数据中注入少量针对性合成数据,提升模型在特定语言现象上的理解能力。
- 实验表明,该方法显著提升了模型在多个BLiMP范例上的性能,验证了数据组成的重要性。
📝 摘要(中文)
大型语言模型(LLMs)在形式语言能力上表现出令人困惑的差异:它们几乎完美地掌握某些语言现象,但在其他现象上表现低于偶然水平,即使经过数万亿token的训练。本文研究这些失败是否源于固有的架构限制,或者仅仅是网络规模语料库中缺乏这些特定语法结构。我们使用FineWeb语料库的1亿token随机样本预训练简单的GPT-2 Small(124M)模型,并通过注入最少量(1%)的针对特定语言现象的合成数据进行干预。我们发现,这种有针对性的干预显著提高了模型在9个表现最差的BLiMP范例中的8个上的性能——值得注意的是,在特定范例only_npi_scope上的准确率从20.9%跃升至69.4%。此外,我们观察到这些干预通常保持或略微提高总体性能。然而,虽然我们也识别出一种抵抗现象,即principle_A_c_command,即使在我们的数据增强之后,其性能仍然低于偶然水平,但我们的发现确实提供了一个乐观的存在性证明,即即使是小型语言模型也可以显着提高模型通常表现不佳的语言现象,前提是预训练数据包含足够的暴露。这表明,人类规模的语言建模工作可以通过关注数据组成而受益匪浅。复现我们结果的代码已在https://github.com/kowndinya-renduchintala/heterogeneity-in-formal-linguistic-competence上开源。
🔬 方法详解
问题定义:大型语言模型在形式语言能力上存在异质性,即在某些语言现象上表现出色,而在另一些现象上表现不佳。现有的预训练方法可能无法充分覆盖所有语言现象,导致模型在特定语法结构上表现欠佳。
核心思路:论文的核心思路是通过数据增强,即向预训练数据中注入少量针对特定语言现象的合成数据,从而提高模型对这些现象的理解能力。作者认为,数据稀疏是导致模型在某些语言现象上表现不佳的主要原因。
技术框架:论文使用GPT-2 Small模型作为基础模型,并使用FineWeb语料库进行预训练。然后,作者通过注入少量合成数据来增强预训练数据,这些合成数据专门针对模型表现不佳的特定语言现象。最后,作者评估模型在BLiMP基准上的性能,以衡量数据增强的效果。
关键创新:论文的关键创新在于证明了通过少量针对性数据增强,可以显著提高小规模语言模型在特定语言现象上的理解能力。这表明数据组成对于语言模型的性能至关重要,即使是小型模型,只要有足够的相关数据,也能表现出良好的语言能力。
关键设计:论文的关键设计包括:1) 选择GPT-2 Small作为基础模型,以便于控制实验;2) 使用BLiMP基准来评估模型的语言能力;3) 注入少量(1%)的合成数据,以避免过度拟合;4) 针对模型表现最差的BLiMP范例进行数据增强;5) 评估数据增强对总体性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过注入1%的针对性合成数据,模型在8/9个表现最差的BLiMP范例上取得了显著提升。例如,在only_npi_scope范例上的准确率从20.9%跃升至69.4%。此外,总体性能基本保持或略有提升,证明了该方法的有效性。
🎯 应用场景
该研究成果可应用于提升语言模型在特定领域的理解能力,例如法律、医学等专业领域。通过构建针对性的数据集,可以提高模型在这些领域的准确性和可靠性。此外,该方法还可以用于改进数据增强技术,提高语言模型的泛化能力。
📄 摘要(原文)
Large Language Models (LLMs) exhibit a puzzling disparity in their formal linguistic competence: while they learn some linguistic phenomena with near-perfect mastery, they often perform below chance on others, even after training on trillions of tokens. In this work, we investigate whether these failures stem from inherent architectural limitations or simply the scarcity of these specific grammatical constructions in web-scale corpora. We pre-train simple GPT-2 Small (124M) models on a 100M-token random sample of the FineWeb corpus and intervene by injecting a minimal amount (1%) of synthetic data targeting specific linguistic phenomena. We find that this targeted intervention substantially improves model performance in 8 out of the 9 worst-performing BLiMP paradigms - notably the accuracy on a specific paradigm, only_npi_scope, surges from 20.9% to 69.4%. Furthermore, we observe that these interventions generally preserve or slightly improve aggregate performance. However, while we also identify a resistant phenomenon, principle_A_c_command, whose performance remains below chance even after our data augmentation, our findings do serve as an optimistic existence proof that even small language models can substantially improve on those linguistic phenomena on which models typically perform poorly, provided the pre-training data contains sufficient exposure to them. This suggests that efforts towards human-scale language modeling may benefit greatly by focusing on data composition. The code to reproduce our results is open-sourced at https://github.com/kowndinya-renduchintala/heterogeneity-in-formal-linguistic-competence.