How Far Can Prompting Go for Minimal-Edit Ukrainian Grammatical Error Correction?

作者: Kateryna Karpo, Artem Chernodub

分类: cs.CL

发布日期: 2026-06-08

💡 一句话要点

评估多种语言模型在乌克兰语语法错误纠正中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 乌克兰语 语法错误纠正 大型语言模型 最小编辑 提示优化 错误分析 自然语言处理

📋 核心要点

现有的乌克兰语语法错误纠正方法主要依赖于微调的大型语言模型，API访问的模型在最小编辑基准上几乎未经过测试。
论文提出了一种评估多种语言模型的策略，结合零-shot、few-shot和最小编辑提示优化，以提高乌克兰语的语法错误纠正效果。
实验结果显示，最佳配置Gemini 3.1-Pro在F0.5指标上达到了69.22，接近微调的最先进技术，且使用最小编辑提示的模型表现最佳。

📝 摘要（中文）

本研究评估了11种商业大型语言模型（LLMs）和一个开源乌克兰模型在UNLP 2023 GEC基准上的表现，比较了零-shot、few-shot、最小编辑和LLM辅助的提示优化策略。最佳配置（Gemini 3.1-Pro）达到了F0.5=69.22，缩小了与微调SOTA（F0.5=73.14）之间的90%以上的差距。尽管Claude模型在乌克兰指令下表现良好，但所有模型的最佳结果均使用乌克兰最小编辑提示。详细的最小编辑指令在标点和大小写错误上带来了显著提升，但导致模型放弃一些低频类别。通过错误分析，识别出五种与乌克兰特有语言现象相关的过度纠正模式。代码、提示和输出均已公开。

🔬 方法详解

问题定义：本研究旨在解决乌克兰语语法错误纠正中的有效性问题，现有方法在使用API访问的语言模型时表现不足，特别是在最小编辑基准上。

核心思路：论文通过评估多种语言模型，探索不同提示策略（如零-shot、few-shot和最小编辑）对语法错误纠正的影响，旨在找到最佳的提示配置以提高纠正效果。

技术框架：研究采用了多种语言模型的比较，包括11种商业模型和一个开源模型，使用UNLP 2023 GEC基准进行评估，分析不同提示策略的效果。

关键创新：最重要的创新在于通过最小编辑提示和LLM辅助的提示优化，显著提升了乌克兰语的语法错误纠正能力，尤其是在标点和大小写错误的处理上。

关键设计：研究中使用的参数设置和损失函数经过精心设计，以适应乌克兰语的语言特性，确保模型在处理特定语法错误时的准确性和有效性。具体的提示优化策略也被详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果显示，最佳配置Gemini 3.1-Pro在F0.5指标上达到了69.22，接近微调的最先进技术（F0.5=73.14），缩小了90%以上的差距。使用乌克兰最小编辑提示的模型在所有模型中表现最佳，尤其在标点和大小写错误的纠正上取得了显著提升。

🎯 应用场景

该研究的成果可广泛应用于乌克兰语的自动化文本校正工具、教育软件以及其他需要高质量语言处理的应用场景。通过提高语法错误纠正的准确性，能够帮助学习者更好地掌握语言，提高书写能力，具有重要的教育和社会价值。

📄 摘要（原文）

Fine-tuned Large Language Models (LLMs) dominate in Ukrainian grammatical error correction (GEC), while API-accessed LLMs remain nearly untested on minimal-edit benchmarks. We evaluate 11 commercial LLMs from four providers and one open-source Ukrainian model on the UNLP 2023 GEC-only benchmark, comparing zero-shot, few-shot, minimal-edits, and LLM-assisted prompt optimization strategies. Our best configuration (Gemini 3.1-Pro) reaches F0.5=69.22, closing over 90% of the gap to fine-tuned SOTA (F0.5=73.14). For zero-shot prompts, only Claude models benefit from Ukrainian instructions. However, the best overall results for all models use Ukrainian minimal-edits prompts, whose language-specific rules require Ukrainian to express precisely. LLM-assisted prompt optimization on top of minimal-edits + few-shot achieves the highest score. Detailed minimal-edits instructions yield the largest gains for punctuation and case errors but cause the model to abandon several low-frequency categories. Delving into error analysis, we identify five recurring overcorrection patterns tied to Ukrainian-specific linguistic phenomena. Code, prompts, and outputs are publicly available.

How Far Can Prompting Go for Minimal-Edit Ukrainian Grammatical Error Correction?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理