RE$^2$: Improving Chinese Grammatical Error Correction via Retrieving Appropriate Examples with Explanation

📄 arXiv: 2509.26038v1 📥 PDF

作者: Baoxin Wang, Yumeng Luo, Yixuan Wang, Dayong Wu, Wanxiang Che, Shijin Wang

分类: cs.CL

发布日期: 2025-09-30


💡 一句话要点

RE$^2$:通过检索带解释的合适示例来改进中文语法纠错

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中文语法纠错 大型语言模型 示例检索 语法错误解释 自然语言处理

📋 核心要点

  1. 现有CGEC方法依赖文本相似性检索示例,易错配错误模式,检索语法无关句子。
  2. RE$^2$方法利用语法错误解释检索参考示例,辅助LLM进行更精准的语法纠错。
  3. 实验表明,该方法在CGEC任务上表现出色,并构建了高质量的语法错误解释数据集。

📝 摘要(中文)

中文语法纠错(CGEC)的主要目标是检测和纠正中文句子中的错误。最近的研究表明,大型语言模型(LLMs)已被应用于CGEC并取得了显著成果。对于LLMs,选择合适的参考示例可以帮助提高其性能。然而,现有方法主要依赖于文本相似性进行示例检索,这种策略经常错误匹配实际的错误模式,并检索到词汇相似但语法上不相关的句子。为了解决这个问题,我们提出了一种名为RE$^2$的方法,该方法检索带有语法错误解释的合适示例。我们不使用输入句子的文本相似性,而是使用语法错误的解释来选择参考示例,LLMs使用这些示例来提高CGEC的性能。我们在两个CGEC数据集上进行了实验,并创建了一个高质量的语法错误解释(GEE)数据集,该数据集不仅用于我们的研究,还可以作为未来CGEC和GEE研究的宝贵资源。在两个数据集上的实验结果表明,我们提出的方法有效地提高了CGEC的性能。

🔬 方法详解

问题定义:论文旨在解决中文语法纠错(CGEC)中,现有方法依赖文本相似度检索参考示例,导致检索结果与实际错误模式不匹配,引入大量语法无关信息的问题。现有方法无法有效利用参考示例提升LLM的纠错能力,成为性能瓶颈。

核心思路:论文的核心思路是利用语法错误的解释(Grammatical Error Explanation, GEE)来指导参考示例的检索。相比于文本相似度,GEE能够更准确地捕捉句子中的语法错误类型和位置,从而检索到更具针对性的参考示例。通过将这些带有解释的示例提供给LLM,可以显著提升其纠错能力。

技术框架:RE$^2$方法主要包含以下几个模块:1) 语法错误解释模块:用于生成输入句子的语法错误解释。可以使用现有的GEE模型或人工标注。2) 示例检索模块:根据输入句子的GEE,从预先构建的示例库中检索相似的示例。示例库中的每个示例都包含句子及其对应的GEE。3) LLM纠错模块:将输入句子和检索到的示例及其GEE一起输入到LLM中,利用LLM进行语法纠错。LLM可以采用encoder-decoder结构,例如T5或BART。

关键创新:该方法最重要的创新点在于使用语法错误解释(GEE)来指导参考示例的检索。这与现有方法仅依赖文本相似度有本质区别。GEE能够更准确地反映句子的语法错误信息,从而检索到更相关的参考示例,有效提升了LLM的纠错性能。同时,论文构建的高质量GEE数据集也为后续研究提供了宝贵资源。

关键设计:在示例检索模块中,可以使用不同的相似度度量方法来衡量GEE之间的相似度,例如基于规则的匹配、基于词向量的相似度计算或基于神经网络的相似度学习。在LLM纠错模块中,可以将检索到的示例及其GEE以不同的方式融入到LLM的输入中,例如作为上下文信息拼接在输入句子之前,或者作为额外的特征输入到LLM中。损失函数通常采用交叉熵损失函数,优化目标是最小化纠错后的句子与正确句子之间的差异。

📊 实验亮点

实验结果表明,RE$^2$方法在两个CGEC数据集上均取得了显著的性能提升。与基线方法相比,RE$^2$方法能够更准确地检测和纠正中文语法错误。此外,论文构建的高质量GEE数据集也为后续研究提供了宝贵资源,具有重要的学术价值。

🎯 应用场景

该研究成果可广泛应用于中文文本校对、机器翻译、中文写作辅助等领域。通过提高中文语法纠错的准确率,可以提升文本质量,减少人工校对成本。未来,该方法可以进一步扩展到其他语言的语法纠错任务中,具有重要的实际应用价值和学术研究意义。

📄 摘要(原文)

The primary objective of Chinese grammatical error correction (CGEC) is to detect and correct errors in Chinese sentences. Recent research shows that large language models (LLMs) have been applied to CGEC with significant results. For LLMs, selecting appropriate reference examples can help improve their performance. However, existing methods predominantly rely on text similarity for example retrieval, a strategy that frequently mismatches actual error patterns and retrieves lexically similar yet grammatically irrelevant sentences. To address this problem, we propose a method named RE$^2$, which retrieves appropriate examples with explanations of grammatical errors. Instead of using text similarity of the input sentence, we use explanations of grammatical errors to select reference examples, which are used by LLMs to improve the performance of CGEC. We conduct experiments on two CGEC datasets and create a high-quality grammatical error explanation (GEE) dataset, which is not only used in our research but also serves as a valuable resource for future studies in both CGEC and GEE. The experimental results on the two datasets indicate that our proposed method effectively improves the performance of CGEC.