Evaluating CxG Generalisation in LLMs via Construction-Based NLI Fine Tuning

📄 arXiv: 2509.16422v1 📥 PDF

作者: Tom Mackintosh, Harish Tayyar Madabushi, Claire Bonial

分类: cs.CL

发布日期: 2025-09-19


💡 一句话要点

提出ConTest-NLI基准,评估LLM在基于构式语法的NLI泛化能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 构式语法 自然语言推理 泛化能力 对抗样本 基准数据集 模型微调

📋 核心要点

  1. 现有LLM在理解深层形式-意义映射方面存在抽象差距,尤其是在处理图式构式时。
  2. 提出ConTest-NLI基准,利用模板化和模型在环过滤生成对抗性NLI数据,考察LLM的构式语法泛化能力。
  3. 实验表明,LLM在对抗性数据上的表现显著下降,微调后虽有提升,但仍存在泛化问题。

📝 摘要(中文)

本文旨在探究大型语言模型(LLM)学习由构式语法定义的深层形式-意义映射的能力。为此,我们引入了ConTest-NLI基准,它包含8万个句子,涵盖了从高度词汇化到高度图式的八种英语构式。我们的流程通过模板化和模型在环过滤的应用生成多样化的合成NLI三元组,并提供人工验证的各个方面,以确保挑战性和标签可靠性。在领先的LLM上的零样本测试显示,自然数据(88%)和对抗数据(64%)之间的准确率下降了24%,其中图式模式被证明是最难的。在ConTest-NLI的一个子集上进行微调可产生高达9%的改进,但我们的结果突出了当前LLM中持续存在的抽象差距,并提供了一个可扩展的框架来评估基于构式的学习。

🔬 方法详解

问题定义:现有大型语言模型在理解和泛化构式语法(Construction Grammar)方面存在不足。构式语法强调形式和意义之间的直接联系,而LLM在处理高度抽象或对抗性的构式时,性能会显著下降。现有方法缺乏针对性评估和提升LLM构式语法泛化能力的有效手段。

核心思路:本文的核心思路是构建一个专门用于评估LLM构式语法泛化能力的基准数据集ConTest-NLI。通过生成包含不同类型构式的自然语言推理(NLI)三元组,并利用对抗性样本来挑战LLM的理解能力,从而揭示LLM在构式语法方面的弱点。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 定义目标构式:选择涵盖不同抽象程度的英语构式。2) 数据生成:使用模板化方法生成NLI三元组,包括前提、假设和标签。3) 模型在环过滤:利用LLM对生成的数据进行过滤,筛选出具有挑战性和标签可靠性的样本。4) 零样本测试:在领先的LLM上进行零样本测试,评估其在ConTest-NLI上的表现。5) 微调:使用ConTest-NLI的子集对LLM进行微调,观察其性能提升。

关键创新:该研究的关键创新在于ConTest-NLI基准的构建,它提供了一个系统化的方法来评估LLM在构式语法方面的泛化能力。通过对抗性样本的引入,可以更有效地揭示LLM的弱点。此外,模型在环过滤的应用也提高了数据的质量和可靠性。

关键设计:ConTest-NLI基准包含8万个句子,涵盖八种英语构式。数据生成过程采用模板化方法,并结合人工验证,以确保数据的多样性和质量。模型在环过滤使用LLM来评估生成样本的难度和标签的正确性,从而筛选出高质量的对抗性样本。微调实验采用标准的NLI微调流程,并针对不同的构式进行性能评估。

📊 实验亮点

在ConTest-NLI基准上,领先的LLM在自然数据上的准确率为88%,但在对抗性数据上降至64%,表明LLM在处理抽象构式时存在显著的泛化问题。使用ConTest-NLI的子集进行微调后,LLM的性能提升了高达9%,但仍未能完全解决泛化问题,表明当前LLM在构式语法方面仍有提升空间。

🎯 应用场景

该研究成果可应用于提升LLM在自然语言理解、机器翻译和对话系统等领域的性能。通过ConTest-NLI基准,可以系统地评估和改进LLM的构式语法泛化能力,使其能够更准确地理解和生成复杂的语言结构。此外,该研究也为未来研究LLM的抽象推理能力提供了新的思路和方法。

📄 摘要(原文)

We probe large language models' ability to learn deep form-meaning mappings as defined by construction grammars. We introduce the ConTest-NLI benchmark of 80k sentences covering eight English constructions from highly lexicalized to highly schematic. Our pipeline generates diverse synthetic NLI triples via templating and the application of a model-in-the-loop filter. This provides aspects of human validation to ensure challenge and label reliability. Zero-shot tests on leading LLMs reveal a 24% drop in accuracy between naturalistic (88%) and adversarial data (64%), with schematic patterns proving hardest. Fine-tuning on a subset of ConTest-NLI yields up to 9% improvement, yet our results highlight persistent abstraction gaps in current LLMs and offer a scalable framework for evaluating construction-informed learning.