Introducing OmniGEC: A Silver Multilingual Dataset for Grammatical Error Correction

📄 arXiv: 2509.14504v1 📥 PDF

作者: Roman Kovalchuk, Mariana Romanyshyn, Petro Ivaniuk

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-18

期刊: Proceedings of the Fourth Ukrainian Natural Language Processing Workshop (UNLP 2025)

DOI: 10.18653/v1/2025.unlp-1


💡 一句话要点

OmniGEC:提出多语言语法纠错的银标准数据集,促进跨语言GEC模型发展

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语法纠错 多语言 数据集 大型语言模型 银标准数据

📋 核心要点

  1. 现有GEC方法在多语言场景下数据稀缺,限制了模型泛化能力和性能。
  2. OmniGEC通过收集和生成多语言银标准数据集,为多语言GEC提供数据支持。
  3. 实验表明,在OmniGEC上微调的Aya-Expanse和Gemma-3模型在多语言GEC任务上取得了SOTA结果。

📝 摘要(中文)

本文介绍了OmniGEC,一个用于语法纠错(GEC)的多语言银标准数据集集合,涵盖11种语言:捷克语、英语、爱沙尼亚语、德语、希腊语、冰岛语、意大利语、拉脱维亚语、斯洛文尼亚语、瑞典语和乌克兰语。这些数据集有助于开发多语言GEC解决方案,并弥合了将英语GEC解决方案适配到多语言GEC中的数据差距。数据集中的文本来源于三个来源:11种目标语言的维基百科编辑、Reddit的子版块以及仅限乌克兰语的UberText 2.0社交媒体语料库。维基百科编辑源于人工校正,而Reddit和UberText 2.0数据则使用GPT-4o-mini模型自动校正。对数据集中校正的质量进行了自动和手动评估。最后,我们在多语言OmniGEC语料库上微调了两个开源大型语言模型——Aya-Expanse (8B)和Gemma-3 (12B),并在段落级多语言GEC中取得了最先进(SOTA)的结果。数据集集合和性能最佳的模型可在Hugging Face上获得。

🔬 方法详解

问题定义:论文旨在解决多语言语法纠错(GEC)任务中数据稀缺的问题。现有的GEC方法主要集中在英语上,缺乏足够的多语言训练数据,导致模型在其他语言上的性能不佳。此外,将英语GEC模型直接迁移到其他语言通常效果有限,需要针对特定语言进行调整和优化。

核心思路:论文的核心思路是构建一个多语言的银标准数据集,为多语言GEC模型提供训练数据。通过结合人工校正和自动校正的方法,生成包含多种语言的GEC数据集,从而弥补数据差距,提高模型在多语言环境下的泛化能力。

技术框架:OmniGEC数据集的构建流程主要包括数据收集、数据校正和数据评估三个阶段。数据收集阶段从维基百科编辑、Reddit子版块和UberText 2.0社交媒体语料库中收集文本数据。数据校正阶段使用人工校正(针对维基百科编辑)和GPT-4o-mini模型自动校正(针对Reddit和UberText 2.0数据)。数据评估阶段则通过自动指标和人工评估来评估校正质量。最后,使用该数据集微调大型语言模型。

关键创新:该论文的关键创新在于构建了一个包含11种语言的多语言银标准GEC数据集。该数据集的规模和多样性为多语言GEC模型的研究和开发提供了重要的数据基础。此外,论文还探索了使用大型语言模型自动生成GEC数据的可行性,为低资源语言的GEC任务提供了新的思路。

关键设计:在数据校正阶段,论文采用了GPT-4o-mini模型进行自动校正。具体参数设置未知,但选择该模型的原因可能是其在文本生成和理解方面的强大能力。在模型微调阶段,论文选择了Aya-Expanse (8B)和Gemma-3 (12B)两个开源大型语言模型,并使用OmniGEC数据集进行微调。具体的损失函数和训练策略未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在OmniGEC数据集上微调Aya-Expanse (8B)和Gemma-3 (12B)模型,在段落级多语言GEC任务上取得了SOTA结果。具体的性能提升数据未知,但结果表明OmniGEC数据集对于提升多语言GEC模型性能具有显著效果。该研究验证了使用银标准数据训练多语言GEC模型的可行性。

🎯 应用场景

该研究成果可应用于多语言教育、机器翻译后编辑、跨语言文本校对等领域。通过提高多语言语法纠错的准确性和效率,可以帮助用户更好地理解和表达不同语言的文本,促进跨文化交流和信息共享。未来,该数据集可以进一步扩展到更多语言,并用于训练更强大的多语言GEC模型。

📄 摘要(原文)

In this paper, we introduce OmniGEC, a collection of multilingual silver-standard datasets for the task of Grammatical Error Correction (GEC), covering eleven languages: Czech, English, Estonian, German, Greek, Icelandic, Italian, Latvian, Slovene, Swedish, and Ukrainian. These datasets facilitate the development of multilingual GEC solutions and help bridge the data gap in adapting English GEC solutions to multilingual GEC. The texts in the datasets originate from three sources: Wikipedia edits for the eleven target languages, subreddits from Reddit in the eleven target languages, and the Ukrainian-only UberText 2.0 social media corpus. While Wikipedia edits were derived from human-made corrections, the Reddit and UberText 2.0 data were automatically corrected with the GPT-4o-mini model. The quality of the corrections in the datasets was evaluated both automatically and manually. Finally, we fine-tune two open-source large language models - Aya-Expanse (8B) and Gemma-3 (12B) - on the multilingual OmniGEC corpora and achieve state-of-the-art (SOTA) results for paragraph-level multilingual GEC. The dataset collection and the best-performing models are available on Hugging Face.