CxMP: A Linguistic Minimal-Pair Benchmark for Evaluating Constructional Understanding in Language Models

📄 arXiv: 2602.21978v1 📥 PDF

作者: Miyu Oba, Saku Sugawara

分类: cs.CL

发布日期: 2026-02-25


💡 一句话要点

提出CxMP基准以评估语言模型的构式理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 构式语法 语言模型 语义理解 最小对比 自然语言处理 机器学习

📋 核心要点

  1. 核心问题:现有方法主要关注语法可接受性,缺乏对语法形式所传达意义的深入评估。
  2. 方法要点:提出CxMP基准,基于构式语法,评估模型对构式隐含语义关系的理解能力。
  3. 实验或效果:结果显示大型语言模型在构式理解上存在显著不足,揭示了形式与意义整合的差距。

📝 摘要(中文)

近期的研究从语言学的角度考察语言模型,以更好地理解它们如何习得语言。现有基准主要集中在判断语法可接受性,而对语法形式所传达的意义解释能力关注较少。本文提出了构式理解评估的语言最小对比基准(CxMP),该基准基于构式语法,将形式-意义配对视为基本语言单位。CxMP评估模型是否能够解释构式所隐含的语义关系,采用了控制的最小对比设计,涵盖九种构式类型。结果表明,尽管句法能力早期显现,但构式理解的发展较为渐进,且在大型语言模型中仍然有限。CxMP揭示了语言模型在形式与意义整合方面的持续差距,为研究语言模型的构式理解和学习轨迹提供了框架。

🔬 方法详解

问题定义:本文旨在解决语言模型在理解构式时对形式与意义整合不足的问题。现有方法主要集中于语法的可接受性,未能充分评估模型对语义关系的理解能力。

核心思路:论文提出的CxMP基准通过构式语法的视角,设计了最小对比实验,旨在评估语言模型在不同构式下的语义理解能力。这样的设计能够更好地捕捉模型对构式的理解深度。

技术框架:CxMP基准包括九种构式类型的设计,采用控制的最小对比方法,确保实验的严谨性和可重复性。模型通过这些构式进行训练和评估,以观察其对语义关系的理解能力。

关键创新:CxMP的创新在于将构式视为基本语言单位,强调形式与意义的结合,而不仅仅是语法结构的正确性。这一视角与现有方法的侧重点形成鲜明对比。

关键设计:在实验中,采用了多种构式类型的对比设计,确保涵盖不同的语义关系。模型的评估指标包括构式理解的准确性和语义关系的识别能力,确保全面评估模型的构式理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,尽管大型语言模型在句法能力上表现良好,但在构式理解方面仍存在显著不足。具体而言,模型在九种构式类型的语义关系识别准确率普遍低于预期,揭示了形式与意义整合的持续差距,为后续研究提供了重要参考。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等。通过深入理解语言模型的构式能力,可以提升这些系统在语义理解和生成方面的表现,进而提高人机交互的自然性和流畅性。未来,该基准可能推动更先进的语言模型设计,促进语言理解技术的发展。

📄 摘要(原文)

Recent work has examined language models from a linguistic perspective to better understand how they acquire language. Most existing benchmarks focus on judging grammatical acceptability, whereas the ability to interpret meanings conveyed by grammatical forms has received much less attention. We introduce the Linguistic Minimal-Pair Benchmark for Evaluating Constructional Understanding in Language Models (CxMP), a benchmark grounded in Construction Grammar that treats form-meaning pairings, or constructions, as fundamental linguistic units. CxMP evaluates whether models can interpret the semantic relations implied by constructions, using a controlled minimal-pair design across nine construction types, including the let-alone, caused motion, and ditransitive constructions. Our results show that while syntactic competence emerges early, constructional understanding develops more gradually and remains limited even in large language models (LLMs). CxMP thus reveals persistent gaps in how language models integrate form and meaning, providing a framework for studying constructional understanding and learning trajectories in language models.