Evaluating CxG Generalisation in LLMs via Construction-Based NLI Fine Tuning

作者: Tom Mackintosh, Harish Tayyar Madabushi, Claire Bonial

分类: cs.CL

发布日期: 2025-09-19

💡 一句话要点

提出ConTest-NLI基准，评估LLM在基于构式语法的NLI泛化能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 构式语法 自然语言推理 泛化能力 对抗样本 基准数据集 模型微调

📋 核心要点

现有LLM在理解深层形式-意义映射方面存在抽象差距，尤其是在处理图式构式时。
提出ConTest-NLI基准，利用模板化和模型在环过滤生成对抗性NLI数据，考察LLM的构式语法泛化能力。
实验表明，LLM在对抗性数据上的表现显著下降，微调后虽有提升，但仍存在泛化问题。

📝 摘要（中文）

本文旨在探究大型语言模型（LLM）学习由构式语法定义的深层形式-意义映射的能力。为此，我们引入了ConTest-NLI基准，它包含8万个句子，涵盖了从高度词汇化到高度图式的八种英语构式。我们的流程通过模板化和模型在环过滤的应用生成多样化的合成NLI三元组，并提供人工验证的各个方面，以确保挑战性和标签可靠性。在领先的LLM上的零样本测试显示，自然数据（88%）和对抗数据（64%）之间的准确率下降了24%，其中图式模式被证明是最难的。在ConTest-NLI的一个子集上进行微调可产生高达9%的改进，但我们的结果突出了当前LLM中持续存在的抽象差距，并提供了一个可扩展的框架来评估基于构式的学习。

🔬 方法详解

问题定义：现有大型语言模型在理解和泛化构式语法（Construction Grammar）方面存在不足。构式语法强调形式和意义之间的直接联系，而LLM在处理高度抽象或对抗性的构式时，性能会显著下降。现有方法缺乏针对性评估和提升LLM构式语法泛化能力的有效手段。

核心思路：本文的核心思路是构建一个专门用于评估LLM构式语法泛化能力的基准数据集ConTest-NLI。通过生成包含不同类型构式的自然语言推理（NLI）三元组，并利用对抗性样本来挑战LLM的理解能力，从而揭示LLM在构式语法方面的弱点。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 定义目标构式：选择涵盖不同抽象程度的英语构式。2) 数据生成：使用模板化方法生成NLI三元组，包括前提、假设和标签。3) 模型在环过滤：利用LLM对生成的数据进行过滤，筛选出具有挑战性和标签可靠性的样本。4) 零样本测试：在领先的LLM上进行零样本测试，评估其在ConTest-NLI上的表现。5) 微调：使用ConTest-NLI的子集对LLM进行微调，观察其性能提升。

关键创新：该研究的关键创新在于ConTest-NLI基准的构建，它提供了一个系统化的方法来评估LLM在构式语法方面的泛化能力。通过对抗性样本的引入，可以更有效地揭示LLM的弱点。此外，模型在环过滤的应用也提高了数据的质量和可靠性。

关键设计：ConTest-NLI基准包含8万个句子，涵盖八种英语构式。数据生成过程采用模板化方法，并结合人工验证，以确保数据的多样性和质量。模型在环过滤使用LLM来评估生成样本的难度和标签的正确性，从而筛选出高质量的对抗性样本。微调实验采用标准的NLI微调流程，并针对不同的构式进行性能评估。

📊 实验亮点

在ConTest-NLI基准上，领先的LLM在自然数据上的准确率为88%，但在对抗性数据上降至64%，表明LLM在处理抽象构式时存在显著的泛化问题。使用ConTest-NLI的子集进行微调后，LLM的性能提升了高达9%，但仍未能完全解决泛化问题，表明当前LLM在构式语法方面仍有提升空间。

🎯 应用场景

该研究成果可应用于提升LLM在自然语言理解、机器翻译和对话系统等领域的性能。通过ConTest-NLI基准，可以系统地评估和改进LLM的构式语法泛化能力，使其能够更准确地理解和生成复杂的语言结构。此外，该研究也为未来研究LLM的抽象推理能力提供了新的思路和方法。

📄 摘要（原文）

We probe large language models' ability to learn deep form-meaning mappings as defined by construction grammars. We introduce the ConTest-NLI benchmark of 80k sentences covering eight English constructions from highly lexicalized to highly schematic. Our pipeline generates diverse synthetic NLI triples via templating and the application of a model-in-the-loop filter. This provides aspects of human validation to ensure challenge and label reliability. Zero-shot tests on leading LLMs reveal a 24% drop in accuracy between naturalistic (88%) and adversarial data (64%), with schematic patterns proving hardest. Fine-tuning on a subset of ConTest-NLI yields up to 9% improvement, yet our results highlight persistent abstraction gaps in current LLMs and offer a scalable framework for evaluating construction-informed learning.

Evaluating CxG Generalisation in LLMs via Construction-Based NLI Fine Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理