Comparing Natural and Synthetic Structured Data: A Study of the Passive Verb Alternation in French and Italian

📄 arXiv: 2603.25227v1 📥 PDF

作者: Giuseppe Samo, Paola Merlo

分类: cs.CL

发布日期: 2026-03-26

备注: 13 pages, 8 figures, paper accepted at the Workshop on Structured Linguistic Data and Evaluation (SLiDE)


💡 一句话要点

比较自然与合成结构数据以研究法语和意大利语的被动动词交替

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言处理 语言模型 合成数据 自然数据 语言评估 句法知识 语义知识

📋 核心要点

  1. 现有方法在使用合成数据训练时,模型无法有效泛化到自然句子,导致性能下降。
  2. 论文提出使用Blackbird语言矩阵,比较自然句子与合成句子的结构化模板,以探测语言模型的知识。
  3. 实验结果显示,基于自然数据训练的模型在多种测试集上表现优异,验证了自然数据的重要性。

📝 摘要(中文)

本研究比较了自然数据与合成数据对大型语言模型(LLMs)训练和评估的影响,重点关注法语和意大利语中的被动动词交替。我们使用了Blackbird语言矩阵(BLMs),这些结构化数据集旨在探测句子集中的语言知识和潜在模式。实验结果表明,尽管模型在合成数据集上表现优异,但在自然句子上却无法可靠地泛化。相反,基于自然数据训练的模型在自然和合成测试集上均表现出强大的性能,显示出其捕捉抽象语言模式的优越能力。这些结果证实了自然数据和结构化设置在语言评估中的重要性,尤其是在探测LLMs的句法和语义知识方面。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型在使用合成数据时无法有效泛化到自然数据的问题。现有方法在自然句子上的表现不佳,限制了模型的实际应用。

核心思路:论文的核心思路是通过比较自然和合成数据的影响,探讨自然数据在语言模型训练中的重要性。使用结构化数据集来评估模型的语言知识,能够更好地捕捉语言的抽象模式。

技术框架:研究采用Blackbird语言矩阵(BLMs)作为技术框架,包含自然句子和合成句子的结构化模板。实验分为训练和测试两个阶段,分别使用不同类型的数据集。

关键创新:本研究的关键创新在于通过结构化数据集的设计,揭示了自然数据在语言模型训练中的优势,尤其是在句法和语义知识的捕捉上,与传统方法形成鲜明对比。

关键设计:在实验中,模型的训练过程采用了不同的损失函数和参数设置,以确保在自然数据和合成数据上均能获得良好的性能。具体的网络结构和超参数设置在实验中进行了详细的调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,模型在合成数据集上达到了性能上限,但在自然句子上表现不佳。相比之下,基于自然数据训练的模型在自然和合成测试集上均表现出色,验证了自然数据的优越性。具体而言,基于自然数据的模型在多项测试中表现出显著的性能提升,显示出其更强的泛化能力。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、语言模型的训练与评估、以及语言学研究等。通过强调自然数据的重要性,研究为改进语言模型的泛化能力提供了新的思路,未来可能影响模型的设计和应用。

📄 摘要(原文)

This study compares the impact of natural and synthetic data on training and evaluating large language models (LLMs), using the case of passive verb alternation in French and Italian. We use Blackbird Language Matrices (BLMs), structured datasets designed to probe linguistic knowledge of underlying patterns across sentence sets. We compare structured templates instantiated with natural sentences extracted from Universal Dependencies to structured templates of synthetic sentences. Experiments show that while models achieve ceiling performance when trained and tested on synthetic datasets, they do not reliably generalize to natural sentences. In contrast, models trained on natural data exhibit robust performance across both natural and synthetic test suites, demonstrating their superior ability to capture abstract linguistic patterns. These results corroborate the value of natural data and of structured set ups in linguistic evaluation for probing LLMs' syntactic and semantic knowledge.