EvalYaks: Instruction Tuning Datasets and LoRA Fine-tuned Models for Automated Scoring of CEFR B2 Speaking Assessment Transcripts

📄 arXiv: 2408.12226v2 📥 PDF

作者: Nicy Scaria, Silvester John Joseph Kennedy, Thomas Latinovich, Deepak Subramani

分类: cs.CL, cs.AI

发布日期: 2024-08-22 (更新: 2025-05-30)


💡 一句话要点

EvalYaks:指令微调Mistral 7B,实现CEFR B2口语评估的自动化评分

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CEFR评估 口语评估 自动化评分 指令微调 Mistral 7B LoRA 语言模型 在线教育

📋 核心要点

  1. 人工评估CEFR口语考试耗时且成本高,限制了评估的规模和速度,亟需自动化解决方案。
  2. 利用专家验证的CEFR对齐数据,指令微调Mistral 7B模型,构建EvalYaks模型家族,实现自动评分。
  3. EvalYaks在CEFR B2口语评估中达到96%准确率,变异程度为0.35级,性能显著优于其他模型。

📝 摘要(中文)

本文旨在解决电子学习环境中CEFR口语评估依赖人工专家带来的可扩展性问题,目标是自动化评估CEFR B2英语口语对话文本。首先,评估了领先的开源和商业大语言模型在CEFR B2口语考试中对考生表现进行评分的能力,包括全球和印度特定语境。其次,创建了一个新的专家验证的、CEFR对齐的合成对话数据集,其中包含不同评估分数的文本。此外,还从英语词汇 профиль (高达CEFR B2级别)和CEFR-SP WikiAuto数据集开发了新的指令微调数据集。最后,使用这些新数据集,对Mistral Instruct 7B v0.2进行参数高效的指令微调,开发了一系列名为EvalYaks的模型。该系列包含四个模型,分别用于评估CEFR B2口语考试的四个部分;一个用于识别CEFR词汇级别并生成特定级别的词汇;另一个用于检测文本的CEFR级别并生成特定级别的文本。EvalYaks实现了平均96%的可接受准确率和0.35级的变异程度,性能是次优模型的3倍。这表明,使用高质量的CEFR对齐评估数据进行指令微调的7B参数LLM可以有效地评估CEFR B2英语口语评估,为可扩展的自动化语言能力评估提供了一个有前景的解决方案。

🔬 方法详解

问题定义:论文旨在解决CEFR B2英语口语评估中依赖人工评分导致的可扩展性问题。现有方法,即人工评分,耗时耗力,难以满足大规模评估的需求。此外,现有的大语言模型在直接应用于该任务时,性能不足,无法达到可接受的准确率和一致性。

核心思路:论文的核心思路是利用高质量的CEFR对齐数据,对一个相对较小的语言模型(Mistral 7B)进行指令微调。通过指令微调,使模型能够理解CEFR评估标准,并准确地对口语文本进行评分。选择Mistral 7B是因为其在性能和计算资源之间取得了较好的平衡,适合实际应用。

技术框架:整体框架包括以下几个主要阶段:1) 数据集构建:创建专家验证的CEFR对齐的合成对话数据集,并从现有资源(如英语词汇 профиль和CEFR-SP WikiAuto数据集)构建指令微调数据集。2) 模型选择:选择Mistral Instruct 7B v0.2作为基础模型。3) 指令微调:使用构建的数据集对Mistral 7B进行参数高效的指令微调,得到EvalYaks模型家族。4) 评估:在CEFR B2口语评估数据集上评估EvalYaks模型的性能。

关键创新:论文的关键创新在于:1) 构建了高质量的CEFR对齐的合成对话数据集,该数据集是训练EvalYaks模型的关键。2) 采用指令微调的方法,使一个相对较小的语言模型能够胜任复杂的CEFR口语评估任务。3) 提出了EvalYaks模型家族,针对CEFR B2口语考试的不同部分,以及词汇和文本的CEFR级别评估,分别训练了不同的模型。

关键设计:论文采用了LoRA(Low-Rank Adaptation)进行参数高效的指令微调,减少了训练所需的计算资源。具体来说,LoRA通过在预训练模型的权重矩阵旁添加低秩矩阵来实现参数的更新,从而避免了对整个模型进行微调。此外,论文还针对不同的任务设计了不同的指令模板,以指导模型进行学习。损失函数采用标准的交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EvalYaks模型在CEFR B2口语评估中取得了显著的性能提升,平均可接受准确率达到96%,变异程度为0.35级,性能是次优模型的3倍。这表明,通过高质量的CEFR对齐数据进行指令微调,可以有效地提高语言模型在口语评估任务中的性能。该研究证明了小模型在特定任务上通过精细化训练可以超越大模型的潜力。

🎯 应用场景

该研究成果可应用于在线教育平台、语言学习APP等场景,实现CEFR B2英语口语评估的自动化评分,降低评估成本,提高评估效率。此外,该方法还可以推广到其他语言和CEFR级别的评估,具有广泛的应用前景。未来,可以进一步研究如何利用EvalYaks模型提供个性化的学习反馈,帮助学生提高口语水平。

📄 摘要(原文)

Relying on human experts to evaluate CEFR speaking assessments in an e-learning environment creates scalability challenges, as it limits how quickly and widely assessments can be conducted. We aim to automate the evaluation of CEFR B2 English speaking assessments in e-learning environments from conversation transcripts. First, we evaluate the capability of leading open source and commercial Large Language Models (LLMs) to score a candidate's performance across various criteria in the CEFR B2 speaking exam in both global and India-specific contexts. Next, we create a new expert-validated, CEFR-aligned synthetic conversational dataset with transcripts that are rated at different assessment scores. In addition, new instruction-tuned datasets are developed from the English Vocabulary Profile (up to CEFR B2 level) and the CEFR-SP WikiAuto datasets. Finally, using these new datasets, we perform parameter efficient instruction tuning of Mistral Instruct 7B v0.2 to develop a family of models called EvalYaks. Four models in this family are for assessing the four sections of the CEFR B2 speaking exam, one for identifying the CEFR level of vocabulary and generating level-specific vocabulary, and another for detecting the CEFR level of text and generating level-specific text. EvalYaks achieved an average acceptable accuracy of 96%, a degree of variation of 0.35 levels, and performed 3 times better than the next best model. This demonstrates that a 7B parameter LLM instruction tuned with high-quality CEFR-aligned assessment data can effectively evaluate and score CEFR B2 English speaking assessments, offering a promising solution for scalable, automated language proficiency evaluation.