LLM Agents at the Roundtable: A Multi-Perspective and Dialectical Reasoning Framework for Essay Scoring

📄 arXiv: 2509.14834v2 📥 PDF

作者: Jinhee Jang, Ayoung Moon, Minkyoung Jung, YoungBin Kim, Seung Jin Lee

分类: cs.CL

发布日期: 2025-09-18 (更新: 2025-09-19)


💡 一句话要点

提出Roundtable Essay Scoring (RES)框架,利用多智能体辩证推理提升作文自动评分效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动作文评分 大型语言模型 多智能体系统 辩证推理 零样本学习

📋 核心要点

  1. 现有自动作文评分方法难以达到人类水平的多视角理解和判断能力,限制了评分的准确性和可靠性。
  2. RES框架模拟圆桌讨论,通过多个LLM智能体从不同角度评估作文,并进行辩证推理以达成共识。
  3. 实验结果表明,RES在ASAP数据集上显著优于传统零样本方法,平均QWK提升高达34.86%。

📝 摘要(中文)

大型语言模型(LLM)的出现为自动作文评分(AES)带来了一种新的范式,这是自然语言处理在教育领域中一项长期且实际的应用。然而,实现人类水平的多视角理解和判断仍然是一个挑战。本文提出了Roundtable Essay Scoring (RES),这是一个多智能体评估框架,旨在零样本设置下执行精确且与人类对齐的评分。RES基于LLM构建评估智能体,每个智能体都针对特定的提示和主题背景进行定制。每个智能体独立生成基于特征的评分标准,并进行多视角评估。然后,通过模拟圆桌讨论,RES通过辩证推理过程整合个体评估,从而产生与人类评估更紧密对齐的最终整体评分。通过实现具有不同评估视角的智能体之间的协作和共识,RES优于先前的零样本AES方法。使用ChatGPT和Claude在ASAP数据集上进行的实验表明,RES在平均QWK方面比直接提示(Vanilla)方法提高了高达34.86%。

🔬 方法详解

问题定义:自动作文评分(AES)旨在利用自然语言处理技术自动评估作文质量。现有的零样本AES方法,特别是基于大型语言模型(LLM)的方法,虽然取得了一定的进展,但仍然难以达到人类水平的多视角理解和判断能力。这导致评分结果与人类评估存在偏差,影响了AES的实际应用效果。痛点在于缺乏有效的机制来整合不同视角的评估结果,并进行深入的辩证推理。

核心思路:RES的核心思路是模拟人类专家进行圆桌讨论的过程,让多个LLM智能体扮演不同的评估角色,从不同的角度对作文进行评估。每个智能体都基于特定的提示和主题背景进行定制,并独立生成评分标准。通过智能体之间的交流和辩论,RES能够整合不同视角的评估结果,并进行深入的辩证推理,从而产生更准确、更可靠的评分结果。这种方法借鉴了人类专家进行评估时的协作和共识机制,能够更好地模拟人类的评估过程。

技术框架:RES框架主要包含以下几个阶段:1) 智能体构建:基于LLM构建多个评估智能体,每个智能体都针对特定的提示和主题背景进行定制。2) 独立评估:每个智能体独立生成基于特征的评分标准,并从各自的角度对作文进行评估。3) 圆桌讨论:模拟圆桌讨论,让智能体之间进行交流和辩论,分享各自的评估结果和观点。4) 辩证推理:通过辩证推理过程整合个体评估,从而产生最终的整体评分。整体流程旨在模仿人类专家团队协作评分的过程。

关键创新:RES的关键创新在于引入了多智能体协作和辩证推理机制。与传统的单智能体AES方法相比,RES能够从多个角度对作文进行评估,并整合不同视角的评估结果。通过辩证推理,RES能够发现和纠正个体智能体的偏差,从而提高评分的准确性和可靠性。这种多智能体协作和辩证推理机制是RES优于现有方法的本质区别。

关键设计:RES的关键设计包括:1) 智能体提示设计:针对不同的评估角色设计不同的提示,引导智能体从不同的角度对作文进行评估。2) 评分标准生成:每个智能体独立生成基于特征的评分标准,例如,论证的清晰度、逻辑性、证据支持等。3) 辩证推理策略:设计有效的辩证推理策略,例如,基于多数投票、基于置信度加权等,以整合个体评估结果。4) LLM选择:实验中使用了ChatGPT和Claude等LLM作为智能体的基础模型,并比较了不同LLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RES在ASAP数据集上显著优于传统的零样本AES方法。使用ChatGPT和Claude作为基础模型,RES在平均QWK(Quadratic Weighted Kappa)方面比直接提示(Vanilla)方法分别提高了34.86%和23.45%。这些结果表明,RES的多智能体协作和辩证推理机制能够有效提高自动作文评分的准确性和可靠性。

🎯 应用场景

RES框架可应用于各种自动作文评分场景,例如在线教育平台、作文批改工具、语言学习应用等。该研究有助于提高自动评分的准确性和可靠性,减轻教师的批改负担,并为学生提供更个性化的反馈。未来,RES可以扩展到其他类型的文本评估任务,例如论文评审、代码审查等。

📄 摘要(原文)

The emergence of large language models (LLMs) has brought a new paradigm to automated essay scoring (AES), a long-standing and practical application of natural language processing in education. However, achieving human-level multi-perspective understanding and judgment remains a challenge. In this work, we propose Roundtable Essay Scoring (RES), a multi-agent evaluation framework designed to perform precise and human-aligned scoring under a zero-shot setting. RES constructs evaluator agents based on LLMs, each tailored to a specific prompt and topic context. Each agent independently generates a trait-based rubric and conducts a multi-perspective evaluation. Then, by simulating a roundtable-style discussion, RES consolidates individual evaluations through a dialectical reasoning process to produce a final holistic score that more closely aligns with human evaluation. By enabling collaboration and consensus among agents with diverse evaluation perspectives, RES outperforms prior zero-shot AES approaches. Experiments on the ASAP dataset using ChatGPT and Claude show that RES achieves up to a 34.86% improvement in average QWK over straightforward prompting (Vanilla) methods.