Edit-level Majority Voting Mitigates Over-Correction in LLM-based Grammatical Error Correction

📄 arXiv: 2605.13624v1 📥 PDF

作者: Takumi Goto, Yusuke Sakai, Taro Watanabe

分类: cs.CL

发布日期: 2026-05-13

备注: BEA Workshop 2026


💡 一句话要点

提出基于编辑级别多数投票的推理方法,缓解LLM语法纠错中的过度纠正问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语法纠错 大型语言模型 过度纠正 多数投票 免训练推理

📋 核心要点

  1. 基于LLM的语法纠错易出现过度纠正,即错误地修改了原本正确的句子成分。
  2. 论文提出一种免训练的推理方法,通过编辑级别的多数投票来整合多个候选结果,降低过度纠正的风险。
  3. 实验结果表明,该方法在多个语种的基准测试中,性能超越了贪婪解码和MBR解码,且对提示词不敏感。

📝 摘要(中文)

大型语言模型(LLM)的语法纠错(GEC)常常面临过度纠正的问题。为了缓解这一问题,我们提出了一种无需训练的推理方法,该方法对单个模型生成的多个候选结果执行编辑级别的多数投票,无需修改模型或进行额外的训练。在涵盖英语、捷克语、德语、乌克兰语、韩语、印地语和罗马尼亚语的九个基准测试中,所提出的方法在大多数情况下优于贪婪解码和MBR解码。此外,无论使用何种指令提示,它都能产生稳定的纠正质量。我们发布了两个仓库,支持GEC数据集加载和LLM推理。

🔬 方法详解

问题定义:论文旨在解决基于大型语言模型的语法纠错任务中常见的过度纠正问题。现有的方法,如贪婪解码和MBR解码,在纠正错误的同时,也可能错误地修改原本正确的句子成分,导致最终结果质量下降。

核心思路:论文的核心思路是利用多个候选结果的“集体智慧”,通过编辑级别的多数投票来决定最终的修改方案。这种方法基于一个假设:对于一个错误的句子成分,模型更有可能在多个候选结果中都给出正确的修改;而对于一个正确的句子成分,模型则更有可能在多个候选结果中保持不变。

技术框架:该方法主要包含以下步骤:1) 使用LLM生成多个语法纠错的候选结果。2) 将每个候选结果与原始句子进行比较,提取出编辑操作(例如,插入、删除、替换)。3) 对于每个需要修改的位置,统计不同编辑操作的出现次数。4) 选择出现次数最多的编辑操作作为最终的修改方案。如果某个位置没有明显的多数编辑操作,则保持原始句子不变。

关键创新:该方法最重要的创新点在于其编辑级别的多数投票机制。与传统的基于句子级别的投票方法不同,该方法能够更精细地控制修改过程,避免过度纠正。此外,该方法无需额外的训练,可以直接应用于现有的LLM模型。

关键设计:该方法的关键设计在于如何定义和比较编辑操作。论文中可能采用了某种字符串匹配算法或序列比对算法来提取编辑操作。此外,如何处理编辑操作冲突(例如,一个位置同时存在插入和删除操作)也是一个需要考虑的关键设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在九个涵盖多种语言的语法纠错基准测试中,在大多数情况下优于贪婪解码和MBR解码。更重要的是,该方法对不同的指令提示具有鲁棒性,能够产生稳定的纠错质量,这表明该方法具有较强的泛化能力。

🎯 应用场景

该研究成果可广泛应用于各种需要语法纠错的场景,例如自动写作辅助、机器翻译后编辑、教育软件等。通过降低过度纠正的风险,可以提高语法纠错系统的准确性和可靠性,从而提升用户体验。该方法无需训练的特性,也使其易于部署和应用。

📄 摘要(原文)

Grammatical error correction using large language models often suffers from the over-correction issue. To mitigate this, we propose a training-free inference method that performs edit-level majority voting over multiple candidates generated by a single model, without requiring model modifications or additional training. Across nine benchmarks covering English, Czech, German, Ukrainian, Korean, Hindi, and Romanian, the proposed method outperforms both greedy and MBR decoding in most cases. Moreover, it yields stable correction quality regardless of the instruction prompts used. We release two repository supporting GEC datasets loading and LLM inference.