TRATES: Trait-Specific Rubric-Assisted Cross-Prompt Essay Scoring
作者: Sohaila Eltanbouly, Salam Albatarni, Tamer Elsayed
分类: cs.CL
发布日期: 2025-05-20 (更新: 2025-05-31)
备注: Accepted at ACL 2025 Findings
💡 一句话要点
提出TRATES框架,利用LLM和rubric进行特定写作特征的跨prompt作文评分
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动作文评分 大型语言模型 特征工程 跨Prompt学习 写作特征评估
📋 核心要点
- 现有自动作文评分(AES)研究缺乏对根据个体写作特征评估作文的关注。
- TRATES框架利用LLM和评分标准,生成特定于写作特征的评估问题,并以此评估作文。
- 实验表明,TRATES在常用数据集上实现了所有特征的SOTA性能,LLM生成的特征贡献显著。
📝 摘要(中文)
本文提出了一种新颖的、针对特定写作特征并基于评分标准的跨prompt自动作文评分(AES)框架TRATES。该框架具有通用性,同时又针对潜在的写作特征。TRATES框架利用大型语言模型(LLM),使用特征评分标准生成特定于特征的特征(由评估问题表示),然后根据作文评估这些特征。这些特定于特征的特征最终与通用的写作质量和特定于prompt的特征相结合,以训练一个简单的经典回归模型,该模型可以预测来自未见过的prompt的作文的特征分数。实验表明,TRATES在广泛使用的数据集上实现了所有特征的最新性能,其中基于LLM生成的特征最为重要。
🔬 方法详解
问题定义:自动作文评分(AES)领域长期以来主要关注整体评分,而忽略了对作文中各个特定写作特征(如论证、组织、语言等)的独立评估。现有的方法难以有效捕捉和利用这些细粒度的特征信息,尤其是在跨prompt的情况下,不同prompt对特征的要求可能存在差异,导致模型泛化能力不足。
核心思路:TRATES的核心思路是利用大型语言模型(LLM)的强大生成和理解能力,结合特定写作特征的评分标准(rubric),自动生成针对该特征的评估问题。这些问题作为特征提取器,引导LLM从作文中提取与该特征相关的细粒度信息。通过将这些特征与通用写作质量和prompt相关的特征相结合,可以更准确地评估作文在特定特征上的表现,并提高跨prompt的泛化能力。
技术框架:TRATES框架主要包含以下几个模块:1) Rubric-based Feature Generation: 利用LLM和特定特征的评分标准,生成一系列评估问题,这些问题旨在从不同角度评估作文在该特征上的表现。2) Trait-Specific Feature Extraction: 使用LLM回答第一步生成的评估问题,从而提取作文中与该特征相关的特征向量。3) Generic and Prompt-Specific Feature Extraction: 提取通用的写作质量特征(如词汇多样性、语法正确性等)和prompt相关的特征。4) Regression Model Training: 将上述提取的特征组合起来,训练一个简单的回归模型,用于预测作文在特定特征上的得分。
关键创新:TRATES的关键创新在于利用LLM自动生成特定于写作特征的评估问题,并将其作为特征提取器。这种方法能够更有效地捕捉和利用作文中与特定特征相关的细粒度信息,克服了传统方法在特征工程方面的局限性。此外,TRATES框架具有通用性,可以应用于不同的写作特征和prompt。
关键设计:TRATES框架的关键设计包括:1) LLM的选择和微调策略:论文中使用的LLM的具体型号和微调策略(如果存在)未知。2) 评估问题的生成方式:如何设计prompt,引导LLM生成高质量的评估问题?3) 特征融合方式:如何将特定于特征的特征、通用特征和prompt相关的特征有效地融合?4) 回归模型的选择和训练:选择哪种回归模型?如何优化模型的参数?这些细节在论文中可能有所描述,但此处信息不足,无法详细说明。
🖼️ 关键图片
📊 实验亮点
TRATES在广泛使用的数据集上实现了所有写作特征的最新(SOTA)性能。实验结果表明,基于LLM生成的特征对性能提升贡献最大,验证了该方法在特征提取方面的有效性。具体的性能数据(如与现有方法的对比结果、提升幅度等)未知,需要在论文中查找。
🎯 应用场景
TRATES框架可应用于各种自动作文评分场景,尤其是在需要对作文的各个方面进行细致评估的场合。例如,在教育领域,教师可以利用TRATES来更全面地了解学生的写作能力,并提供更有针对性的反馈。此外,该框架还可以应用于写作辅助工具,帮助学生提高写作水平。未来,TRATES有望扩展到其他类型的文本评估任务,如代码审查、论文评审等。
📄 摘要(原文)
Research on holistic Automated Essay Scoring (AES) is long-dated; yet, there is a notable lack of attention for assessing essays according to individual traits. In this work, we propose TRATES, a novel trait-specific and rubric-based cross-prompt AES framework that is generic yet specific to the underlying trait. The framework leverages a Large Language Model (LLM) that utilizes the trait grading rubrics to generate trait-specific features (represented by assessment questions), then assesses those features given an essay. The trait-specific features are eventually combined with generic writing-quality and prompt-specific features to train a simple classical regression model that predicts trait scores of essays from an unseen prompt. Experiments show that TRATES achieves a new state-of-the-art performance across all traits on a widely-used dataset, with the generated LLM-based features being the most significant.