Minimal-Edit Instruction Tuning for Low-Resource Indic GEC

📄 arXiv: 2512.00219v1 📥 PDF

作者: Akhil Rajeev P

分类: cs.CL

发布日期: 2025-11-28

备注: Submitted to AACL-IJCNLP Bhasha Workshop Shared Task1 :GEC


💡 一句话要点

提出一种免增强的指令调优方法,用于低资源印度语的语法纠错。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语法纠错 指令调优 低资源语言 印度语 确定性解码

📋 核心要点

  1. 印度语语法纠错面临数据稀缺、文字多样和形态复杂等挑战。
  2. 利用指令调优的大型语言模型,结合确定性解码和轻量级归一化器,实现免增强的语法纠错。
  3. 实验表明,该方法在马拉雅拉姆语和印地语上取得了具有竞争力的结果,验证了其有效性。

📝 摘要(中文)

针对印度语语法纠错面临的监督数据有限、脚本多样和形态丰富的挑战,本文提出了一种免增强的设置,该设置利用指令调优的大型语言模型和保守解码。具体而言,使用GEMMA 3 (12B)模型,通过bnb 4-bit精度进行指令调优,并采用参数高效微调(PEFT)和Alpaca风格的格式化。解码过程遵循确定性的、约束感知的程序,并使用轻量级的归一化器,以鼓励最小的、保持语义的编辑。在指令微调(IFT)之后,通过固定的、特定于语言的提示来操作推理,该提示直接从确定性错误分类器的分类体系、标签分布和在训练语料库上计算的优先级排序中合成。在官方的未调优GLEU评估中,该系统在马拉雅拉姆语上获得了92.41分(总排名第六),在印地语上获得了81.44分(总排名第三)。这些结果表明,分类器指导的提示设计、基于适配器的指令调优和确定性解码为印度语GEC提供了一种可重现且计算高效的替代方案,以替代以增强为中心的流水线。该方法也激发了未来在更强的形态句法约束和以人为本的保守编辑评估方面的工作。

🔬 方法详解

问题定义:印度语语法纠错任务面临着标注数据稀缺、文字种类繁多以及形态结构复杂等问题。现有的方法通常依赖于数据增强技术来缓解数据不足的问题,但数据增强可能会引入噪声,并且计算成本较高。

核心思路:本文的核心思路是利用指令调优(Instruction Tuning)的大型语言模型,通过少量数据学习到语法纠错的能力,并结合确定性解码策略,避免引入过多的修改,从而保证生成结果的准确性和可控性。

技术框架:该方法主要包含三个阶段:1) 使用GEMMA 3 (12B)模型进行指令调优,采用bnb 4-bit量化和PEFT技术提高训练效率;2) 基于确定性错误分类器的分类体系、标签分布和优先级排序,为每种语言设计特定的提示;3) 使用确定性的、约束感知的解码程序,并结合轻量级的归一化器,生成最终的纠错结果。

关键创新:该方法的主要创新在于提出了一种免增强的指令调优框架,避免了数据增强带来的噪声和计算成本。此外,利用确定性解码策略和轻量级归一化器,保证了生成结果的准确性和可控性,鼓励最小化修改。

关键设计:在指令调优阶段,采用了Alpaca风格的格式化方式,并使用PEFT技术进行参数高效微调。解码过程采用了确定性的、约束感知的程序,并使用轻量级的归一化器,以鼓励最小的、保持语义的编辑。提示的设计基于确定性错误分类器的分类体系、标签分布和在训练语料库上计算的优先级排序。

📊 实验亮点

该系统在官方的未调优GLEU评估中,在马拉雅拉姆语上获得了92.41分(总排名第六),在印地语上获得了81.44分(总排名第三)。这些结果表明,该方法在低资源印度语语法纠错任务上具有竞争力,并且优于许多依赖数据增强的方法。

🎯 应用场景

该研究成果可应用于低资源印度语的自动语法纠错,例如辅助语言学习、文本编辑和机器翻译等领域。通过减少对大量标注数据的依赖,降低了语法纠错系统的开发成本,并为其他低资源语言的自然语言处理任务提供了借鉴。

📄 摘要(原文)

Grammatical error correction for Indic languages faces limited supervision, diverse scripts, and rich morphology. We propose an augmentation-free setup that uses instruction-tuned large language models and conservative decoding. A 12B GEMMA 3 model is instruction-tuned in bnb 4-bit precision with parameter-efficient fine-tuning (PEFT) and Alpaca-style formatting. Decoding follows a deterministic, constraint-aware procedure with a lightweight normaliser that encourages minimal, meaning-preserving edits. We operationalise inference, subsequent to instruction fine-tuning (IFT), via a fixed, language-specific prompt directly synthesised from a deterministic error classifier's taxonomy, label distributions, and precedence ordering computed on the training corpus. Under the official untuned GLEU evaluation, the system scores 92.41 on Malayalam, sixth overall, and 81.44 on Hindi, third overall. These results indicate that classifier-informed prompt design, adapter-based instruction tuning, and deterministic decoding provide a reproducible and a computationally efficient alternative to augmentation-centred pipelines for Indic GEC. The approach also motivates future work on stronger morphosyntactic constraints and human-centred evaluation of conservative edits.