Datasets for Verb Alternations across Languages: BLM Templates and Data Augmentation Strategies

📄 arXiv: 2603.15295v1 📥 PDF

作者: Giuseppe Samo, Paola Merlo

分类: cs.CL, cs.DB

发布日期: 2026-03-16

备注: 9 pages, 16 figures, accepted at LREC 2026


💡 一句话要点

构建多语言动词交替数据集,用于评估LLM的跨句法语义推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 动词交替 跨句推理 Blackbird语言矩阵 多语言数据集

📋 核心要点

  1. 现有方法难以评估LLM在跨句层面理解动词交替等复杂语言现象的能力。
  2. 构建基于Blackbird语言矩阵(BLM)的多语言数据集,以探测LLM的跨句法语义推理能力。
  3. 通过多种模板和数据增强策略,提升数据集的多样性和诊断性,并提供基线性能结果。

📝 摘要(中文)

大型语言模型(LLMs)在各种基于句子的语言现象中表现出了卓越的性能,但它们捕捉跨句范式模式(如动词交替)的能力仍未得到充分探索。本文针对四种语言,提出了精心设计的基于范式的数据集,旨在探测模型对动词交替的系统性跨句知识(英语、德语和意大利语中的状态变化和宾语省略结构,以及希伯来语的binyanim)。这些数据集包含数千个Blackbird语言矩阵(BLMs)问题。BLM任务是一种专门为语言设计的类似RPM/ARC的任务,是一个受控的语言谜题,模型必须根据句法和语义规则选择完成模式的句子。我们介绍了三种复杂度不同的模板,并在合成和自然数据中应用了基于语言学的数据增强策略。我们提供了英语、意大利语、德语和希伯来语的简单基线性能结果,证明了数据集的诊断价值。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在理解和处理跨句子的动词交替现象方面的不足。现有的评估方法主要集中在单句层面的语言能力,缺乏对LLM在更复杂的跨句范式模式中进行推理和泛化的能力评估。动词交替是指同一个动词在不同的句法结构中表现出不同的语义特征,例如状态变化、宾语省略等。理解这些交替需要模型具备一定的世界知识和推理能力。

核心思路:论文的核心思路是构建一种基于范式的数据集,利用Blackbird语言矩阵(BLM)任务来评估LLM对动词交替的理解能力。BLM任务是一种类似RPM/ARC的语言谜题,通过提供一系列句子,要求模型根据句法和语义规则选择能够完成模式的句子。这种方法能够有效地控制语言的复杂性,并突出模型在跨句层面进行推理的能力。

技术框架:该研究的技术框架主要包括以下几个部分:1) 数据集构建:针对英语、德语、意大利语和希伯来语,构建包含动词交替现象的数据集。2) 模板设计:设计三种复杂度不同的模板,用于生成BLM问题。3) 数据增强:应用基于语言学的数据增强策略,扩充数据集规模。4) 模型评估:使用LLM在构建的数据集上进行评估,并提供基线性能结果。

关键创新:论文的关键创新在于:1) 提出了基于BLM任务的跨句语言理解评估方法,能够更有效地评估LLM在复杂语言现象中的推理能力。2) 构建了多语言的动词交替数据集,为研究LLM的跨语言理解能力提供了资源。3) 设计了多种模板和数据增强策略,提高了数据集的多样性和诊断性。

关键设计:论文的关键设计包括:1) BLM任务的设计:BLM任务要求模型在给定的句子模式中选择合适的句子,以完成一个逻辑关系。这种设计能够有效地控制语言的复杂性,并突出模型在跨句层面进行推理的能力。2) 模板的设计:论文设计了三种复杂度不同的模板,用于生成BLM问题。这些模板涵盖了不同的动词交替现象,能够更全面地评估LLM的理解能力。3) 数据增强策略:论文应用了基于语言学的数据增强策略,例如同义词替换、句子改写等,以扩充数据集规模,并提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提供了英语、意大利语、德语和希伯来语的基线性能结果,展示了数据集的诊断价值。虽然没有给出具体的性能数据和提升幅度,但强调了该数据集能够有效区分不同LLM在处理动词交替现象方面的能力差异,为后续研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于提升LLM在自然语言理解、机器翻译和对话系统等领域的性能。通过评估和改进LLM对动词交替等复杂语言现象的理解能力,可以提高机器翻译的准确性和流畅性,以及对话系统对用户意图的理解和响应能力。此外,该数据集也可作为评估和比较不同LLM性能的基准。

📄 摘要(原文)

Large language models (LLMs) have shown remarkable performance across various sentence-based linguistic phenomena, yet their ability to capture cross-sentence paradigmatic patterns, such as verb alternations, remains underexplored. In this work, we present curated paradigm-based datasets for four languages, designed to probe systematic cross-sentence knowledge of verb alternations (change-of-state and object-drop constructions in English, German and Italian, and Hebrew binyanim). The datasets comprise thousands of the Blackbird Language Matrices (BLMs) problems. The BLM task -- an RPM/ARC-like task devised specifically for language -- is a controlled linguistic puzzle where models must select the sentence that completes a pattern according to syntactic and semantic rules. We introduce three types of templates varying in complexity and apply linguistically-informed data augmentation strategies across synthetic and natural data. We provide simple baseline performance results across English, Italian, German, and Hebrew, that demonstrate the diagnostic usefulness of the datasets.