FEANEL: A Benchmark for Fine-Grained Error Analysis in K-12 English Writing

作者: Jingheng Ye, Shen Wang, Jiaqi Chen, Hebin Wang, Deqing Zou, Yanyu Zhu, Jiwei Tang, Hai-Tao Zheng, Ruitong Liu, Haoyang Li, Yanfeng Wang, Qingsong Wen

分类: cs.CL

发布日期: 2025-11-28

备注: 19 pages, 7 figures, and 4 tables. The dataset is available at https://huggingface.co/datasets/Feanel/FEANEL

💡 一句话要点

FEANEL：针对K-12英语写作的细粒度错误分析基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 细粒度错误分析 K-12英语写作 大型语言模型 教育基准 自然语言处理

📋 核心要点

现有大型语言模型在K-12英语写作的细粒度错误分析方面能力不足，无法提供有效的教育反馈。
论文构建了FEANEL基准，包含中小学生作文和细粒度错误标注，旨在评估和提升LLM的错误分析能力。
实验结果揭示了现有LLM在细粒度错误分析上的明显差距，表明需要针对教育应用进行专门优化。

📝 摘要（中文）

大型语言模型（LLMs）已经改变了人工智能，为教育应用提供了深刻的机会。然而，它们为K-12英语写作提供细粒度教育反馈的能力仍未被充分探索。本文通过引入针对英语学习者的细粒度错误分析问题，并提出针对英语学习者的细粒度错误分析（FEANEL）基准，挑战了LLM的错误分析和教学技能。该基准包含1000篇由中小学生撰写的文章，以及一个完善的英语写作错误分类体系。每个错误都由语言教育专家进行注释，并使用他们共同开发的基于词性的分类体系按类型、严重程度和解释性反馈进行分类。我们在FEANEL基准上评估了最先进的LLM，以探索它们的错误分析和教学能力。实验结果表明，当前LLM在执行细粒度错误分析方面的能力存在显著差距，突出了在教育应用方面改进特定方法的需求。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在K-12英语写作中进行细粒度错误分析的难题。现有方法无法提供足够精确和有针对性的反馈，阻碍了LLMs在教育领域的有效应用。具体来说，现有方法难以准确识别错误类型、评估错误严重程度，并提供有用的解释性反馈。

核心思路：论文的核心思路是构建一个高质量的、细粒度标注的英语写作错误分析基准（FEANEL）。通过该基准，可以系统地评估和比较不同LLMs在错误分析方面的性能，并促进针对教育应用的LLM优化。基准的设计重点在于提供详细的错误类型、严重程度和解释性反馈，从而为LLMs提供更丰富的训练数据和更明确的评估标准。

技术框架：FEANEL基准的构建流程主要包括以下几个阶段：1) 数据收集：收集了1000篇由中小学生撰写的英语作文。2) 错误分类体系构建：与语言教育专家合作，开发了一个基于词性的英语写作错误分类体系。3) 错误标注：由语言教育专家对每篇文章中的错误进行标注，包括错误类型、严重程度和解释性反馈。4) 基准发布：将标注好的数据集作为FEANEL基准发布，供研究人员使用。

关键创新：该论文的关键创新在于构建了一个高质量、细粒度标注的英语写作错误分析基准（FEANEL）。与现有的错误分析数据集相比，FEANEL具有以下优势：1) 针对K-12英语写作，更贴近实际教育场景。2) 错误标注更加细粒度，包括错误类型、严重程度和解释性反馈。3) 由语言教育专家进行标注，保证了标注的准确性和专业性。

关键设计：FEANEL基准的关键设计包括：1) 错误分类体系：基于词性的错误分类体系，能够更准确地描述错误类型。2) 严重程度评估：对每个错误进行严重程度评估，有助于LLMs区分不同错误的优先级。3) 解释性反馈：为每个错误提供解释性反馈，帮助学生理解错误原因并进行改正。4) 数据集规模：包含1000篇作文，保证了数据集的规模和多样性。

🖼️ 关键图片

📊 实验亮点

论文通过在FEANEL基准上评估最先进的LLMs，揭示了它们在细粒度错误分析方面的显著差距。实验结果表明，现有LLMs在错误类型识别、严重程度评估和解释性反馈等方面均存在不足，突出了针对教育应用进行LLM优化的必要性。具体性能数据未在摘要中给出，需要查阅原文。

🎯 应用场景

该研究成果可应用于智能写作辅助、在线教育平台、语言学习APP等领域。通过利用FEANEL基准训练和评估LLMs，可以提升其在英语写作错误分析方面的能力，从而为学生提供更个性化、更有效的写作指导和反馈，最终提高学生的英语写作水平。未来，该基准可以扩展到其他语言和写作类型，具有广阔的应用前景。

📄 摘要（原文）

Large Language Models (LLMs) have transformed artificial intelligence, offering profound opportunities for educational applications. However, their ability to provide fine-grained educational feedback for K-12 English writing remains underexplored. In this paper, we challenge the error analysis and pedagogical skills of LLMs by introducing the problem of Fine-grained Error Analysis for English Learners and present the Fine-grained Error ANalysis for English Learners (FEANEL) Benchmark. The benchmark comprises 1,000 essays written by elementary and secondary school students, and a well-developed English writing error taxonomy. Each error is annotated by language education experts and categorized by type, severity, and explanatory feedback, using a part-of-speech-based taxonomy they co-developed. We evaluate state-of-the-art LLMs on the FEANEL Benchmark to explore their error analysis and pedagogical abilities. Experimental results reveal significant gaps in current LLMs' ability to perform fine-grained error analysis, highlighting the need for advancements in particular methods for educational applications.

FEANEL: A Benchmark for Fine-Grained Error Analysis in K-12 English Writing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理