How Far Can Prompting Go for Minimal-Edit Ukrainian Grammatical Error Correction?
作者: Kateryna Karpo, Artem Chernodub
分类: cs.CL
发布日期: 2026-06-08
💡 一句话要点
评估多种语言模型在乌克兰语语法错误纠正中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 乌克兰语 语法错误纠正 大型语言模型 最小编辑 提示优化 错误分析 自然语言处理
📋 核心要点
- 现有的乌克兰语语法错误纠正方法主要依赖于微调的大型语言模型,API访问的模型在最小编辑基准上几乎未经过测试。
- 论文提出了一种评估多种语言模型的策略,结合零-shot、few-shot和最小编辑提示优化,以提高乌克兰语的语法错误纠正效果。
- 实验结果显示,最佳配置Gemini 3.1-Pro在F0.5指标上达到了69.22,接近微调的最先进技术,且使用最小编辑提示的模型表现最佳。
📝 摘要(中文)
本研究评估了11种商业大型语言模型(LLMs)和一个开源乌克兰模型在UNLP 2023 GEC基准上的表现,比较了零-shot、few-shot、最小编辑和LLM辅助的提示优化策略。最佳配置(Gemini 3.1-Pro)达到了F0.5=69.22,缩小了与微调SOTA(F0.5=73.14)之间的90%以上的差距。尽管Claude模型在乌克兰指令下表现良好,但所有模型的最佳结果均使用乌克兰最小编辑提示。详细的最小编辑指令在标点和大小写错误上带来了显著提升,但导致模型放弃一些低频类别。通过错误分析,识别出五种与乌克兰特有语言现象相关的过度纠正模式。代码、提示和输出均已公开。
🔬 方法详解
问题定义:本研究旨在解决乌克兰语语法错误纠正中的有效性问题,现有方法在使用API访问的语言模型时表现不足,特别是在最小编辑基准上。
核心思路:论文通过评估多种语言模型,探索不同提示策略(如零-shot、few-shot和最小编辑)对语法错误纠正的影响,旨在找到最佳的提示配置以提高纠正效果。
技术框架:研究采用了多种语言模型的比较,包括11种商业模型和一个开源模型,使用UNLP 2023 GEC基准进行评估,分析不同提示策略的效果。
关键创新:最重要的创新在于通过最小编辑提示和LLM辅助的提示优化,显著提升了乌克兰语的语法错误纠正能力,尤其是在标点和大小写错误的处理上。
关键设计:研究中使用的参数设置和损失函数经过精心设计,以适应乌克兰语的语言特性,确保模型在处理特定语法错误时的准确性和有效性。具体的提示优化策略也被详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果显示,最佳配置Gemini 3.1-Pro在F0.5指标上达到了69.22,接近微调的最先进技术(F0.5=73.14),缩小了90%以上的差距。使用乌克兰最小编辑提示的模型在所有模型中表现最佳,尤其在标点和大小写错误的纠正上取得了显著提升。
🎯 应用场景
该研究的成果可广泛应用于乌克兰语的自动化文本校正工具、教育软件以及其他需要高质量语言处理的应用场景。通过提高语法错误纠正的准确性,能够帮助学习者更好地掌握语言,提高书写能力,具有重要的教育和社会价值。
📄 摘要(原文)
Fine-tuned Large Language Models (LLMs) dominate in Ukrainian grammatical error correction (GEC), while API-accessed LLMs remain nearly untested on minimal-edit benchmarks. We evaluate 11 commercial LLMs from four providers and one open-source Ukrainian model on the UNLP 2023 GEC-only benchmark, comparing zero-shot, few-shot, minimal-edits, and LLM-assisted prompt optimization strategies. Our best configuration (Gemini 3.1-Pro) reaches F0.5=69.22, closing over 90% of the gap to fine-tuned SOTA (F0.5=73.14). For zero-shot prompts, only Claude models benefit from Ukrainian instructions. However, the best overall results for all models use Ukrainian minimal-edits prompts, whose language-specific rules require Ukrainian to express precisely. LLM-assisted prompt optimization on top of minimal-edits + few-shot achieves the highest score. Detailed minimal-edits instructions yield the largest gains for punctuation and case errors but cause the model to abandon several low-frequency categories. Delving into error analysis, we identify five recurring overcorrection patterns tied to Ukrainian-specific linguistic phenomena. Code, prompts, and outputs are publicly available.