Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks

📄 arXiv: 2603.18765v1 📥 PDF

作者: Rudra Jadhav, Janhavi Danve, Sonalika Shaw

分类: cs.CL

发布日期: 2026-03-19

备注: 7 pages, 5 figures, 2 tables, 11 references


💡 一句话要点

揭示大语言模型评分中的隐性偏见:写作风格如何影响数学、编程和论文任务的自动评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自动评分 隐性偏见 写作风格 教育评估 公平性 提示工程

📋 核心要点

  1. 现有大语言模型在自动评分中存在潜在偏见,尤其是在写作风格对评分的影响方面,这可能导致不公平的评估结果。
  2. 该研究通过控制内容正确性,操纵写作风格(语法、用语、表达),来评估LLM在不同科目中的评分偏见。
  3. 实验表明,LLM在论文/写作任务中存在显著的风格偏见,但在数学和编程任务中偏见较小,提示工程难以完全消除偏见。

📝 摘要(中文)

随着大型语言模型(LLMs)越来越多地被部署为教育环境中的自动评分器,对其评估的公平性和偏见的担忧变得至关重要。本研究调查了当底层内容正确性保持不变时,LLM是否会表现出基于写作风格的隐性评分偏见。我们构建了一个包含180个学生回答的受控数据集,涵盖三个科目(数学、编程和论文/写作),每个科目包含三种表面级别的扰动类型:语法错误、非正式语言和非母语措辞。我们提示两个最先进的开源LLM——LLaMA 3.3 70B (Meta) 和 Qwen 2.5 72B (Alibaba)——在1-10的范围内对回答进行评分,并明确指示仅评估内容正确性,忽略写作风格。结果表明,在论文/写作任务中,两种模型和所有扰动类型都存在统计上显著的评分偏见(p < 0.05),效应量从中等(Cohen's d = 0.64)到非常大(d = 4.25)。非正式语言受到的惩罚最重,LLaMA平均扣除1.90分,Qwen扣除1.20分(满分10分),这种惩罚相当于B+和C+等级之间的差异。非母语措辞分别被扣除1.35分和0.90分。与此形成鲜明对比的是,数学和编程任务显示出最小的偏见,大多数条件未能达到统计显著性。这些发现表明,LLM评分偏见是学科相关的、对风格敏感的,并且即使在评分提示中明确给出反偏见指示,这种偏见仍然存在。我们讨论了基于LLM的评分系统公平部署的意义,并建议在机构采用之前制定偏见审计协议。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLMs)在自动评分时,是否会受到写作风格的影响,即使内容本身是正确的。现有方法在教育评估中越来越依赖LLM,但忽略了LLM可能存在的隐性偏见,这可能导致对不同写作风格的学生产生不公平的评分。现有研究缺乏对这种偏见的系统性分析和量化。

核心思路:核心思路是通过构建一个受控的数据集,其中包含相同内容但具有不同写作风格的答案,然后使用LLM进行评分,并分析评分结果是否存在显著差异。通过这种方式,可以量化写作风格对LLM评分的影响,从而揭示其潜在的偏见。

技术框架:整体流程包括以下几个步骤:1) 构建数据集:针对数学、编程和论文/写作三个科目,创建包含正确答案的基准样本。2) 引入扰动:对基准样本进行修改,生成具有不同写作风格(语法错误、非正式语言、非母语措辞)的变体。3) LLM评分:使用LLaMA 3.3 70B和Qwen 2.5 72B两个LLM对所有样本进行评分,并明确指示忽略写作风格。4) 统计分析:分析评分结果,使用统计方法(如Cohen's d)量化不同写作风格对评分的影响,并检验其统计显著性。

关键创新:关键创新在于构建了一个受控的实验环境,能够系统性地研究写作风格对LLM评分的影响。通过控制内容正确性,可以更准确地量化风格偏见。此外,该研究还针对不同科目进行了分析,发现偏见程度存在学科差异。研究结果表明,即使在提示工程中明确指示忽略写作风格,LLM仍然存在风格偏见。

关键设计:数据集构建的关键设计在于对三种写作风格扰动的控制。语法错误通过随机插入或删除单词、改变语序等方式引入。非正式语言通过使用口语化的词汇和表达方式替换正式用语引入。非母语措辞通过模拟非英语母语者的写作习惯引入。评分提示的关键设计在于明确指示LLM只评估内容正确性,忽略写作风格。统计分析的关键设计在于使用Cohen's d来量化效应量,并进行显著性检验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在论文/写作任务中,LLM存在显著的风格偏见,非正式语言受到的惩罚最重,相当于降低一个等级。LLaMA和Qwen模型分别平均扣除1.90分和1.20分(满分10分)。相比之下,数学和编程任务的偏见较小,大多数条件未达到统计显著性。即使在提示工程中明确指示忽略写作风格,LLM仍然存在风格偏见。

🎯 应用场景

该研究结果对教育领域的LLM应用具有重要意义。在自动评分系统中,需要考虑并减轻LLM的风格偏见,以确保评分的公平性和客观性。未来的研究可以探索更有效的反偏见方法,例如使用对抗训练或微调技术,来提高LLM评分的公平性。此外,该研究也为其他领域的LLM应用提供了借鉴,例如在招聘、内容审核等场景中,也需要关注LLM可能存在的隐性偏见。

📄 摘要(原文)

As large language models (LLMs) are increasingly deployed as automated graders in educational settings, concerns about fairness and bias in their evaluations have become critical. This study investigates whether LLMs exhibit implicit grading bias based on writing style when the underlying content correctness remains constant. We constructed a controlled dataset of 180 student responses across three subjects (Mathematics, Programming, and Essay/Writing), each with three surface-level perturbation types: grammar errors, informal language, and non-native phrasing. Two state-of-the-art open-source LLMs -- LLaMA 3.3 70B (Meta) and Qwen 2.5 72B (Alibaba) -- were prompted to grade responses on a 1-10 scale with explicit instructions to evaluate content correctness only and to disregard writing style. Our results reveal statistically significant grading bias in Essay/Writing tasks across both models and all perturbation types (p < 0.05), with effect sizes ranging from medium (Cohen's d = 0.64) to very large (d = 4.25). Informal language received the heaviest penalty, with LLaMA deducting an average of 1.90 points and Qwen deducting 1.20 points on a 10-point scale -- penalties comparable to the difference between a B+ and C+ letter grade. Non-native phrasing was penalized 1.35 and 0.90 points respectively. In sharp contrast, Mathematics and Programming tasks showed minimal bias, with most conditions failing to reach statistical significance. These findings demonstrate that LLM grading bias is subject-dependent, style-sensitive, and persists despite explicit counter-bias instructions in the grading prompt. We discuss implications for equitable deployment of LLM-based grading systems and recommend bias auditing protocols before institutional adoption.