CAFES: A Collaborative Multi-Agent Framework for Multi-Granular Multimodal Essay Scoring

📄 arXiv: 2505.13965v1 📥 PDF

作者: Jiamin Su, Yibo Yan, Zhuoran Gao, Han Zhang, Xiang Liu, Xuming Hu

分类: cs.CL, cs.AI

发布日期: 2025-05-20

备注: arXiv admin note: substantial text overlap with arXiv:2502.11916


💡 一句话要点

提出CAFES框架以解决多模态自动评分的局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动评分 多模态评估 协作框架 机器学习 教育技术

📋 核心要点

  1. 现有的自动评分方法在多模态评估中缺乏普适性和准确性,难以与人类评分保持一致。
  2. CAFES框架通过协作的多代理机制,结合初步评分、反馈聚合和反思评分,提升评分的准确性和一致性。
  3. 实验结果显示,CAFES在二次加权Kappa(QWK)上相较于真实评分平均提升21%,特别是在语法和词汇多样性方面表现显著。

📝 摘要(中文)

自动化作文评分(AES)在现代教育中至关重要,尤其是在多模态评估日益普及的背景下。然而,传统的AES方法在评估的普适性和多模态感知方面存在困难,近期基于多模态大语言模型(MLLM)的方法也可能产生虚假的解释和与人类判断不一致的评分。为了解决这些局限性,本文提出了CAFES,这是第一个专门为AES设计的协作多代理框架。该框架协调三个专业代理:初步评分器用于快速、特征特定的评估;反馈池管理器用于聚合详细的、基于证据的优点;反思评分器则基于这些反馈迭代地优化评分,以增强与人类的对齐。通过使用最先进的MLLM进行广泛实验,平均相对提升21%的二次加权Kappa(QWK)相较于真实评分,尤其在语法和词汇多样性方面表现突出。该框架为智能多模态AES系统的实现铺平了道路。

🔬 方法详解

问题定义:论文旨在解决传统自动评分方法在多模态评估中的局限性,尤其是评估的一致性和普适性不足的问题。现有方法常常无法准确反映人类评分的标准,导致评分结果的不可靠性。

核心思路:CAFES框架的核心思想是通过引入多个专门的代理,分别负责不同的评分任务,从而实现更为精准和全面的评分。通过协作机制,这些代理能够互相补充,提升整体评分的质量。

技术框架:CAFES框架由三个主要模块组成:初步评分器负责快速评估,反馈池管理器聚合详细的反馈信息,反思评分器则根据反馈迭代优化评分。整个流程通过这三个模块的协作来实现评分的提升。

关键创新:CAFES的创新之处在于其多代理协作机制,打破了传统单一评分模型的局限,使得评分过程更加灵活和准确。这种设计使得评分能够更好地与人类评估标准对齐。

关键设计:在设计中,初步评分器采用特征特定的评估方法,反馈池管理器使用证据聚合技术,而反思评分器则通过迭代学习机制不断优化评分结果。具体的参数设置和损失函数设计未在摘要中详细说明,需参考完整论文以获取更多技术细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CAFES框架在实验中表现出色,相较于真实评分,平均提升21%的二次加权Kappa(QWK),尤其在语法和词汇多样性方面的改进尤为显著。这一结果表明,CAFES在提升自动评分系统的准确性和一致性方面具有重要的实际意义。

🎯 应用场景

CAFES框架在教育评估领域具有广泛的应用潜力,尤其是在需要多模态评估的场景中,如在线教育平台、自动化作文评分系统等。其智能化的评分机制能够提高评估的效率和准确性,帮助教师更好地理解学生的写作能力和潜在问题,进而提升教学质量。未来,该框架还可以扩展到其他领域的自动评分和评估任务中。

📄 摘要(原文)

Automated Essay Scoring (AES) is crucial for modern education, particularly with the increasing prevalence of multimodal assessments. However, traditional AES methods struggle with evaluation generalizability and multimodal perception, while even recent Multimodal Large Language Model (MLLM)-based approaches can produce hallucinated justifications and scores misaligned with human judgment. To address the limitations, we introduce CAFES, the first collaborative multi-agent framework specifically designed for AES. It orchestrates three specialized agents: an Initial Scorer for rapid, trait-specific evaluations; a Feedback Pool Manager to aggregate detailed, evidence-grounded strengths; and a Reflective Scorer that iteratively refines scores based on this feedback to enhance human alignment. Extensive experiments, using state-of-the-art MLLMs, achieve an average relative improvement of 21% in Quadratic Weighted Kappa (QWK) against ground truth, especially for grammatical and lexical diversity. Our proposed CAFES framework paves the way for an intelligent multimodal AES system. The code will be available upon acceptance.