Leveraging LLMs for Bangla Grammar Error Correction:Error Categorization, Synthetic Data, and Model Evaluation

📄 arXiv: 2406.14284v2 📥 PDF

作者: Pramit Bhattacharyya, Arnab Bhattacharya

分类: cs.CL, cs.AI

发布日期: 2024-06-20 (更新: 2025-06-05)

备注: Accepted at ACL Findings, 2025


💡 一句话要点

利用LLM提升孟加拉语语法纠错:错误分类、数据合成与模型评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 孟加拉语语法纠错 大型语言模型 指令调优 数据合成 噪声注入

📋 核心要点

  1. 孟加拉语语法纠错(GEC)资源匮乏,现有方法难以满足实际需求,缺乏大规模高质量的训练数据。
  2. 论文提出一种基于规则的噪声注入方法,合成大量带噪声的孟加拉语数据,用于指令调优大型语言模型。
  3. 实验表明,指令调优后的LLM在孟加拉语GEC任务上性能显著提升,错误识别能力接近人类水平。

📝 摘要(中文)

大型语言模型(LLM)在包括英语在内的多种语言的自然语言理解(NLU)任务中表现出色。然而,尽管孟加拉语是全球第五大语言,但孟加拉语的语法纠错(GEC)仍然欠发达。本文研究了如何利用LLM来改进孟加拉语GEC。为此,我们首先对孟加拉语中的12种错误类别进行了广泛的分类,并对以孟加拉语为母语的人进行了调查,以收集真实世界的错误。接下来,我们设计了一种基于规则的噪声注入方法,以创建与正确句子相对应的语法错误的句子。由此创建的Vaiyakarana数据集包含567422个句子,其中227119个是错误的。然后,该数据集用于指令调优LLM,以执行孟加拉语GEC任务。评估表明,与零样本设置相比,使用 ame进行指令调优可将LLM的GEC性能提高3-7个百分点,并使其在语法错误识别方面达到类似人类的性能。然而,在错误纠正方面,人类仍然更胜一筹。

🔬 方法详解

问题定义:论文旨在解决孟加拉语语法纠错(GEC)任务中数据不足的问题。现有方法依赖于少量的人工标注数据,难以训练出泛化能力强的模型。此外,缺乏对孟加拉语语法错误的细粒度分类,导致模型难以针对性地进行纠错。

核心思路:论文的核心思路是利用规则生成合成数据,并使用指令调优的方式,让LLM学习孟加拉语的语法规则和错误模式。通过合成大量数据,可以有效缓解数据稀缺问题,提升模型的泛化能力。指令调优则可以引导LLM更好地理解和执行GEC任务。

技术框架:整体流程包括三个主要步骤:1) 孟加拉语语法错误分类:对12种常见的孟加拉语语法错误进行分类。2) 合成数据生成:设计基于规则的噪声注入方法,将正确的孟加拉语句子转换为包含语法错误的句子,构建Vaiyakarana数据集。3) 指令调优:使用Vaiyakarana数据集对LLM进行指令调优,使其具备孟加拉语GEC能力。

关键创新:论文的关键创新在于提出了一种基于规则的噪声注入方法,用于合成大规模的孟加拉语语法错误数据。这种方法可以有效地模拟真实世界中的语法错误,为LLM的训练提供充足的数据支持。此外,论文还对孟加拉语语法错误进行了细致的分类,为后续的研究提供了参考。

关键设计:噪声注入规则的设计是关键。论文根据12种错误类型,设计了相应的规则,例如,随机替换词语、改变语序、添加或删除标点符号等。Vaiyakarana数据集包含567422个句子,其中227119个是错误的。指令调优阶段,使用了标准的指令调优方法,具体参数设置未知。

📊 实验亮点

实验结果表明,使用Vaiyakarana数据集进行指令调优后,LLM在孟加拉语GEC任务上的性能显著提升,与零样本设置相比,GEC性能提高了3-7个百分点。在语法错误识别方面,模型的性能接近人类水平。虽然在错误纠正方面,人类仍然优于模型,但该研究为LLM在孟加拉语GEC领域的应用奠定了基础。

🎯 应用场景

该研究成果可应用于孟加拉语的自动校对、机器翻译、教育辅助等领域。通过提高孟加拉语GEC的准确率,可以帮助人们更有效地使用孟加拉语进行交流和写作,促进孟加拉语的推广和发展。未来,可以将该方法扩展到其他低资源语言的GEC任务中。

📄 摘要(原文)

Large Language Models (LLMs) perform exceedingly well in Natural Language Understanding (NLU) tasks for many languages including English. However, despite being the fifth most-spoken language globally, Grammatical Error Correction (GEC) in Bangla remains underdeveloped. In this work, we investigate how LLMs can be leveraged for improving Bangla GEC. For that, we first do an extensive categorization of 12 error classes in Bangla, and take a survey of native Bangla speakers to collect real-world errors. We next devise a rule-based noise injection method to create grammatically incorrect sentences corresponding to correct ones. The Vaiyakarana dataset, thus created, consists of 5,67,422 sentences of which 2,27,119 are erroneous. This dataset is then used to instruction-tune LLMs for the task of GEC in Bangla. Evaluations show that instruction-tuning with \name improves GEC performance of LLMs by 3-7 percentage points as compared to the zero-shot setting, and makes them achieve human-like performance in grammatical error identification. Humans, though, remain superior in error correction.