Comparison of Scoring Rationales Between Large Language Models and Human Raters

📄 arXiv: 2509.23412v1 📥 PDF

作者: Haowei Hua, Hong Jiao, Dan Song

分类: cs.CL, cs.LG

发布日期: 2025-09-27

备注: 23 Pages, 4 Tables, 13 Figures


💡 一句话要点

对比大型语言模型与人类评分者的评分理由,探究自动评分一致性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动评分 评分理由 一致性分析 教育评估

📋 核心要点

  1. 现有自动评分方法缺乏对评分理由的深入理解,导致评分一致性难以保证,尤其是在复杂的主观题评分中。
  2. 本研究对比人类和LLM的评分理由,通过相似度分析和聚类分析,揭示LLM评分的内在逻辑,从而提高评分一致性。
  3. 实验结果表明,不同LLM在评分准确性上存在差异,且其评分理由与人类评分者存在差异,为改进LLM自动评分提供了依据。

📝 摘要(中文)

自动评分的进步与机器学习和自然语言处理技术的进步密切相关。随着大型语言模型(LLM)的快速发展,ChatGPT、Gemini、Claude等生成式人工智能聊天机器人已被用于自动评分。鉴于LLM强大的推理能力,它们还可以生成评分理由来支持其给出的分数。因此,评估人类和LLM评分者提供的理由有助于理解两者在评分时应用的推理方式,从而发现评分不一致的潜在原因。本研究调查了人类和LLM评分者的理由,以识别评分不一致的潜在原因。使用来自大规模测试的作文,基于二次加权kappa和归一化互信息,检验了GPT-4o、Gemini和其他LLM的评分准确性。使用余弦相似度评估所提供理由的相似性。此外,基于理由嵌入的主成分分析,探索了理由中的聚类模式。本研究的发现深入了解了LLM在自动评分中的准确性和“思考”方式,有助于更好地理解人类评分和基于LLM的自动评分背后的理由。

🔬 方法详解

问题定义:论文旨在解决自动评分领域中,大型语言模型(LLM)评分结果与人类评分结果不一致的问题。现有方法缺乏对LLM评分理由的深入分析,难以理解LLM的评分逻辑,从而导致评分结果难以解释和信任。此外,现有方法也缺乏对不同LLM之间评分差异的系统性比较。

核心思路:论文的核心思路是通过对比LLM和人类评分者的评分理由,来理解LLM的评分逻辑,并找出导致评分不一致的原因。具体而言,论文使用余弦相似度来衡量评分理由的相似性,并使用主成分分析和聚类分析来探索评分理由中的潜在模式。通过这些分析,可以深入了解LLM的“思考”方式,并为改进LLM自动评分提供依据。

技术框架:论文的技术框架主要包括以下几个步骤:1) 数据收集:收集大规模测试中的作文及其人类评分和LLM评分;2) 评分理由生成:要求人类评分者和LLM提供评分理由;3) 评分准确性评估:使用二次加权kappa和归一化互信息评估LLM的评分准确性;4) 评分理由相似性分析:使用余弦相似度评估人类和LLM评分理由的相似性;5) 评分理由聚类分析:使用主成分分析和聚类分析探索评分理由中的潜在模式。

关键创新:论文的关键创新在于:1) 系统性地对比了人类和LLM的评分理由,揭示了LLM评分的内在逻辑;2) 使用余弦相似度和聚类分析等方法,深入分析了评分理由的相似性和差异性;3) 评估了不同LLM在自动评分中的表现,并比较了它们的评分理由。

关键设计:论文的关键设计包括:1) 使用二次加权kappa和归一化互信息来评估评分准确性,这两种指标能够有效衡量评分者之间的一致性;2) 使用余弦相似度来衡量评分理由的相似性,这是一种常用的文本相似度度量方法;3) 使用主成分分析和聚类分析来探索评分理由中的潜在模式,这两种方法能够有效地降维和发现数据中的结构。

📊 实验亮点

实验结果表明,GPT-4o在自动评分任务中表现出较高的准确性,但其评分理由与人类评分者存在显著差异。余弦相似度分析显示,不同LLM之间的评分理由相似度较高,但与人类评分者的相似度较低。聚类分析揭示了LLM评分理由中存在的潜在模式,为改进LLM自动评分提供了新的思路。

🎯 应用场景

该研究成果可应用于教育评估、内容审核、智能客服等领域。通过深入理解LLM的评分逻辑,可以提高自动评分的准确性和可靠性,减少人工干预,提高效率。此外,该研究还可以帮助开发更智能的教育辅助工具,为学生提供个性化的学习反馈。

📄 摘要(原文)

Advances in automated scoring are closely aligned with advances in machine-learning and natural-language-processing techniques. With recent progress in large language models (LLMs), the use of ChatGPT, Gemini, Claude, and other generative-AI chatbots for automated scoring has been explored. Given their strong reasoning capabilities, LLMs can also produce rationales to support the scores they assign. Thus, evaluating the rationales provided by both human and LLM raters can help improve the understanding of the reasoning that each type of rater applies when assigning a score. This study investigates the rationales of human and LLM raters to identify potential causes of scoring inconsistency. Using essays from a large-scale test, the scoring accuracy of GPT-4o, Gemini, and other LLMs is examined based on quadratic weighted kappa and normalized mutual information. Cosine similarity is used to evaluate the similarity of the rationales provided. In addition, clustering patterns in rationales are explored using principal component analysis based on the embeddings of the rationales. The findings of this study provide insights into the accuracy and ``thinking'' of LLMs in automated scoring, helping to improve the understanding of the rationales behind both human scoring and LLM-based automated scoring.