How well can LLMs Grade Essays in Arabic?
作者: Rayed Ghazawi, Edwin Simpson
分类: cs.CL, cs.AI
发布日期: 2025-01-27
备注: 18 pages
💡 一句话要点
评估大型语言模型在阿拉伯语作文自动评分任务中的性能表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阿拉伯语作文评分 大型语言模型 自动评估 混合语言提示 提示工程
📋 核心要点
- 现有阿拉伯语作文自动评分方法缺乏对大型语言模型能力的充分探索,尤其是在处理复杂语言特性和指令遵循方面。
- 该研究通过零样本、少样本学习和微调等多种策略,结合混合语言提示,评估了多个LLM在阿拉伯语作文评分中的性能。
- 实验结果表明,尽管ACEGPT表现相对较好,但仍不如小型BERT模型,揭示了LLM在处理阿拉伯语时面临的挑战和改进空间。
📝 摘要(中文)
本研究评估了包括ChatGPT、Llama、Aya、Jais和ACEGPT在内的先进大型语言模型(LLMs)在阿拉伯语自动作文评分(AES)任务中的有效性,使用了AR-AES数据集。研究探索了各种评估方法,包括零样本、少样本上下文学习和微调,并考察了通过在提示中包含评分指南来提高指令遵循能力的影响。采用了一种混合语言提示策略,将英语提示与阿拉伯语内容相结合,以提高模型的理解和性能。在测试的模型中,ACEGPT在整个数据集中表现最强,实现了0.67的二次加权Kappa(QWK),但仍逊于一个QWK为0.88的较小的基于BERT的模型。该研究指出了LLM在处理阿拉伯语时面临的挑战,包括分词复杂性和更高的计算需求。不同课程之间的性能差异强调了对能够处理不同评估格式的自适应模型的需求,并突出了有效的提示工程对提高LLM输出的积极影响。据我们所知,这项研究是第一个使用真实学生数据对多个生成式大型语言模型(LLM)在阿拉伯语作文上的性能进行实证评估的研究。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)在阿拉伯语自动作文评分(AES)任务中的表现。现有方法,特别是针对阿拉伯语的AES,面临着数据稀缺、语言复杂性(如形态丰富性)以及缺乏针对LLM的系统性评估等痛点。以往研究较少关注LLM在处理阿拉伯语作文时的能力,尤其是在指令遵循和不同评估标准下的适应性。
核心思路:论文的核心思路是利用多种评估策略(零样本、少样本上下文学习、微调)来系统性地考察不同LLM在阿拉伯语AES任务中的性能。通过混合语言提示(英语提示+阿拉伯语内容)来提升模型对阿拉伯语的理解。同时,研究还关注了提示工程(prompt engineering)对LLM性能的影响,即通过在提示中加入评分指南来提高模型的指令遵循能力。
技术框架:整体框架包括以下几个主要阶段:1) 数据准备:使用AR-AES数据集,该数据集包含真实的阿拉伯语学生作文。2) 模型选择:选择包括ChatGPT、Llama、Aya、Jais和ACEGPT等多个LLM。3) 评估策略:采用零样本、少样本上下文学习和微调等多种策略。4) 提示工程:设计包含评分指南的提示,并采用混合语言提示策略。5) 性能评估:使用二次加权Kappa(QWK)等指标评估模型性能。
关键创新:该研究的主要创新在于:1) 首次系统性地评估了多个生成式LLM在真实阿拉伯语学生作文上的AES性能。2) 探索了混合语言提示策略在提升LLM对阿拉伯语理解方面的有效性。3) 强调了提示工程在提高LLM指令遵循能力和最终评分质量中的重要作用。
关键设计:关键设计包括:1) 混合语言提示:使用英语提示来引导模型,同时处理阿拉伯语作文内容。2) 评分指南融入:在提示中明确包含评分标准,以提高模型评分的准确性和一致性。3) 评估指标:采用二次加权Kappa(QWK)作为主要评估指标,该指标能够有效衡量评分者之间的一致性。
📊 实验亮点
实验结果显示,ACEGPT在AR-AES数据集上取得了最佳的LLM性能,QWK达到0.67。然而,一个较小的基于BERT的模型取得了0.88的QWK,超过了所有测试的LLM。这表明,尽管LLM在其他任务中表现出色,但在处理阿拉伯语作文评分时仍面临挑战,需要进一步优化模型结构和训练方法。
🎯 应用场景
该研究成果可应用于阿拉伯语教育领域,例如自动作文评分系统、写作辅助工具等。通过优化LLM在阿拉伯语处理方面的能力,可以减轻教师的评分负担,提供个性化的写作反馈,并促进阿拉伯语教学的智能化发展。此外,该研究的混合语言提示策略和提示工程方法也为其他低资源语言的LLM应用提供了借鉴。
📄 摘要(原文)
This research assesses the effectiveness of state-of-the-art large language models (LLMs), including ChatGPT, Llama, Aya, Jais, and ACEGPT, in the task of Arabic automated essay scoring (AES) using the AR-AES dataset. It explores various evaluation methodologies, including zero-shot, few-shot in-context learning, and fine-tuning, and examines the influence of instruction-following capabilities through the inclusion of marking guidelines within the prompts. A mixed-language prompting strategy, integrating English prompts with Arabic content, was implemented to improve model comprehension and performance. Among the models tested, ACEGPT demonstrated the strongest performance across the dataset, achieving a Quadratic Weighted Kappa (QWK) of 0.67, but was outperformed by a smaller BERT-based model with a QWK of 0.88. The study identifies challenges faced by LLMs in processing Arabic, including tokenization complexities and higher computational demands. Performance variation across different courses underscores the need for adaptive models capable of handling diverse assessment formats and highlights the positive impact of effective prompt engineering on improving LLM outputs. To the best of our knowledge, this study is the first to empirically evaluate the performance of multiple generative Large Language Models (LLMs) on Arabic essays using authentic student data.