Structured Prompting for Arabic Essay Proficiency: A Trait-Centric Evaluation Approach

📄 arXiv: 2603.19668v1 📥 PDF

作者: Salim Al Mandhari, Hieu Pham Dinh, Mo El-Haj, Paul Rayson

分类: cs.CL

发布日期: 2026-03-20

备注: 13 pages

期刊: The Fifteenth biennial Language Resources and Evaluation Conference (LREC) 2026


💡 一句话要点

提出结构化提示框架,用于阿拉伯语作文评分,提升语言特征评估准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语作文评分 自动评估 大型语言模型 提示工程 低资源语言

📋 核心要点

  1. 现有阿拉伯语自动作文评分工具缺乏可扩展性和语言学知识,难以准确评估作文。
  2. 提出三层提示策略,包括标准、混合和rubric指导,引导LLM评估作文的组织、词汇等特征。
  3. 实验表明,结构化提示能有效提升阿拉伯语作文评分,Fanar-1-9B-Instruct模型表现最佳。

📝 摘要(中文)

本文提出了一种新颖的提示工程框架,用于阿拉伯语中特定特征的自动作文评分(AES),利用大型语言模型(LLM)在零样本和少样本配置下进行评估。针对阿拉伯语中缺乏可扩展的、语言学知识丰富的AES工具的问题,我们引入了一种三层提示策略(标准、混合和rubric指导),指导LLM评估不同的语言能力特征,如组织、词汇、发展和风格。混合方法模拟了具有特征专家评估者的多智能体评估,而rubric指导方法则结合了评分范例,以增强模型对齐。在零样本和少样本设置中,我们评估了QAES数据集上的八个LLM,QAES是第一个公开可用的具有特征级别注释的阿拉伯语AES资源。使用二次加权Kappa(QWK)和置信区间的实验结果表明,Fanar-1-9B-Instruct在零样本和少样本提示中都实现了最高的特征级别一致性(QWK = 0.28,CI = 0.41),并且rubric指导的提示在所有特征和模型中都产生了持续的收益。话语层面的特征,如发展和风格,表现出最大的改进。这些发现证实,结构化提示,而不仅仅是模型规模,能够实现有效的阿拉伯语AES。我们的研究提出了第一个面向能力导向的阿拉伯语AES的综合框架,并为低资源教育环境中的可扩展评估奠定了基础。

🔬 方法详解

问题定义:论文旨在解决阿拉伯语自动作文评分(AES)领域中,缺乏可扩展且具有语言学知识的工具的问题。现有方法难以准确评估作文的各项语言能力特征,如组织、词汇、发展和风格,导致评分结果与人工评分存在较大差距。

核心思路:论文的核心思路是利用结构化提示工程,引导大型语言模型(LLM)更有效地评估阿拉伯语作文。通过设计不同的提示策略,使LLM能够模拟人工评分过程,并关注作文的特定语言特征。这种方法旨在提高LLM在零样本和少样本设置下的评分准确性和一致性。

技术框架:论文提出的框架包含以下几个主要模块:1) 数据集:使用QAES数据集,该数据集包含阿拉伯语作文及其特征级别的注释。2) LLM选择:选择多个LLM进行实验,包括Fanar-1-9B-Instruct等。3) 提示策略:设计三种提示策略,包括标准提示、混合提示和rubric指导提示。混合提示模拟多智能体评估,rubric指导提示则结合评分范例。4) 评估指标:使用二次加权Kappa(QWK)和置信区间(CI)来评估LLM的评分结果。

关键创新:论文最重要的技术创新点在于提出了结构化的提示工程框架,用于阿拉伯语AES。该框架通过设计不同的提示策略,使LLM能够更好地理解和评估阿拉伯语作文的语言特征。与传统的AES方法相比,该框架更加灵活和可扩展,并且能够在零样本和少样本设置下取得较好的效果。

关键设计:论文的关键设计包括:1) 三种提示策略的具体内容,例如,rubric指导提示如何结合评分范例来引导LLM评分。2) 混合提示中,如何模拟多智能体评估过程,以及如何整合不同智能体的评分结果。3) 实验中,如何选择合适的LLM和评估指标,以及如何进行参数调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Fanar-1-9B-Instruct模型在零样本和少样本提示下均取得了最高的特征级别一致性(QWK = 0.28,CI = 0.41)。Rubric指导的提示策略在所有特征和模型中都产生了持续的收益,尤其是在话语层面的特征(如发展和风格)上,改进最为显著。这些结果表明,结构化提示能够有效提升阿拉伯语AES的性能。

🎯 应用场景

该研究成果可应用于阿拉伯语教育领域,为学生提供自动化的作文评分和反馈,减轻教师的负担。此外,该框架还可扩展到其他低资源语言的作文评分,促进教育公平。未来,该技术有望应用于语言学习App、在线教育平台等,提升语言学习体验。

📄 摘要(原文)

This paper presents a novel prompt engineering framework for trait specific Automatic Essay Scoring (AES) in Arabic, leveraging large language models (LLMs) under zero-shot and few-shot configurations. Addressing the scarcity of scalable, linguistically informed AES tools for Arabic, we introduce a three-tier prompting strategy (standard, hybrid, and rubric-guided) that guides LLMs in evaluating distinct language proficiency traits such as organization, vocabulary, development, and style. The hybrid approach simulates multi-agent evaluation with trait specialist raters, while the rubric-guided method incorporates scored exemplars to enhance model alignment. In zero and few-shot settings, we evaluate eight LLMs on the QAES dataset, the first publicly available Arabic AES resource with trait level annotations. Experimental results using Quadratic Weighted Kappa (QWK) and Confidence Intervals show that Fanar-1-9B-Instruct achieves the highest trait level agreement in both zero and few-shot prompting (QWK = 0.28 and CI = 0.41), with rubric-guided prompting yielding consistent gains across all traits and models. Discourse-level traits such as Development and Style showed the greatest improvements. These findings confirm that structured prompting, not model scale alone, enables effective AES in Arabic. Our study presents the first comprehensive framework for proficiency oriented Arabic AES and sets the foundation for scalable assessment in low resource educational contexts.