Natural Language-based Assessment of L2 Oral Proficiency using LLMs

📄 arXiv: 2507.10200v1 📥 PDF

作者: Stefano Bannò, Rao Ma, Mengjie Qian, Siyuan Tang, Kate Knill, Mark Gales

分类: eess.AS, cs.AI, cs.CL

发布日期: 2025-07-14

备注: Accepted for the 10th Workshop on Speech and Language Technology in Education (SLaTE 2025)


💡 一句话要点

利用大型语言模型进行基于自然语言的二语口语能力评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言处理 口语能力评估 大型语言模型 零样本学习 二语习得

📋 核心要点

  1. 现有口语能力评估方法依赖人工或微调模型,成本高昂且泛化性受限。
  2. 提出基于自然语言描述符的评估方法,利用LLM的理解能力进行零样本评估。
  3. 实验表明,该方法在特定场景下优于BERT模型,并具有良好的可解释性和泛化性。

📝 摘要(中文)

本文探讨了基于自然语言的评估(NLA)方法在二语评估中的应用。NLA使用原本为人类考官设计的、以“能做什么”描述符形式呈现的指令,旨在确定大型语言模型(LLM)是否能像人类评估一样解释和应用这些指令。本文使用开源LLM Qwen 2.5 72B,在零样本设置下评估公开的S&I语料库中的回答。结果表明,这种仅依赖文本信息的方法具有竞争力:虽然它没有超过为此任务微调的先进语音LLM,但优于专门为此目的训练的基于BERT的模型。NLA在不匹配的任务设置中尤其有效,可推广到其他数据类型和语言,并提供更强的可解释性,因为它基于清晰可解释、广泛适用的语言描述符。

🔬 方法详解

问题定义:论文旨在解决二语口语能力评估的问题。现有方法,如人工评估或基于特定任务微调的模型,存在成本高、主观性强、泛化能力差等痛点。缺乏一种低成本、客观、可解释且能适应不同任务的评估方法。

核心思路:论文的核心思路是利用大型语言模型(LLM)的自然语言理解能力,将口语能力评估转化为一个自然语言推理问题。通过提供以“能做什么”描述符形式呈现的评估标准,引导LLM像人类考官一样对学生的口语表达进行评估。这种方法避免了对特定任务的微调,提高了模型的泛化能力。

技术框架:该方法主要包含以下几个步骤:1) 准备评估语料,包括学生的口语回答和对应的任务描述。2) 将评估标准转化为自然语言描述符,例如“能够清晰地表达观点”、“能够使用复杂的语法结构”等。3) 将学生的回答和描述符输入LLM,要求LLM判断学生的回答是否符合描述符的要求。4) 根据LLM的判断结果,计算学生的口语能力得分。整个过程采用零样本设置,无需对LLM进行额外的训练。

关键创新:该方法最重要的创新点在于将口语能力评估转化为一个自然语言理解问题,并利用LLM的强大能力进行零样本评估。与传统的基于特征工程或微调的方法相比,该方法具有更高的灵活性、可解释性和泛化能力。此外,该方法还探索了使用自然语言描述符作为评估标准,这使得评估过程更加透明和可控。

关键设计:论文使用了Qwen 2.5 72B作为基础LLM。评估标准的设计参考了通用的语言能力框架,例如CEFR。在评估过程中,论文采用了不同的提示工程技巧,以提高LLM的评估准确性。例如,论文使用了角色扮演提示,让LLM扮演专业的语言评估者。此外,论文还探索了不同的评估指标,例如准确率、召回率和F1值,以全面评估模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于Qwen 2.5 72B的NLA方法在零样本设置下,在S&I语料库上取得了具有竞争力的性能。虽然未超过微调的语音LLM,但优于专门训练的BERT模型。尤其在任务不匹配的情况下,NLA表现出更强的鲁棒性和泛化能力。该方法还具有良好的可解释性,为评估结果提供了清晰的依据。

🎯 应用场景

该研究成果可应用于在线语言学习平台、自动化口语考试系统、以及语言教学辅助工具的开发。通过降低评估成本、提高评估效率和客观性,有助于推动个性化语言学习和更广泛的语言能力认证。未来,该方法可扩展到其他语言和技能的评估。

📄 摘要(原文)

Natural language-based assessment (NLA) is an approach to second language assessment that uses instructions - expressed in the form of can-do descriptors - originally intended for human examiners, aiming to determine whether large language models (LLMs) can interpret and apply them in ways comparable to human assessment. In this work, we explore the use of such descriptors with an open-source LLM, Qwen 2.5 72B, to assess responses from the publicly available S&I Corpus in a zero-shot setting. Our results show that this approach - relying solely on textual information - achieves competitive performance: while it does not outperform state-of-the-art speech LLMs fine-tuned for the task, it surpasses a BERT-based model trained specifically for this purpose. NLA proves particularly effective in mismatched task settings, is generalisable to other data types and languages, and offers greater interpretability, as it is grounded in clearly explainable, widely applicable language descriptors.