Does the Prompt-based Large Language Model Recognize Students' Demographics and Introduce Bias in Essay Scoring?
作者: Kaixun Yang, Mladen Raković, Dragan Gašević, Guanliang Chen
分类: cs.CL
发布日期: 2025-04-30
💡 一句话要点
研究表明,基于Prompt的大语言模型在作文评分中会识别学生人口统计信息并引入偏见。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动作文评分 大型语言模型 Prompt工程 公平性 偏见检测 自然语言处理 教育评估
📋 核心要点
- 现有自动作文评分(AES)方法依赖微调LLM,技术门槛高,且存在对弱势群体的偏见。
- 本研究探索基于Prompt的LLM在AES中是否会因识别学生人口统计信息而引入偏见。
- 实验表明,LLM能从作文中推断学生的第一语言背景,且正确识别时评分偏差更明显。
📝 摘要(中文)
大型语言模型(LLMs)因其捕获语义意义的能力而被广泛应用于自动作文评分(AES)。传统的微调方法需要专业技术,限制了技术背景有限的教育工作者的使用。然而,像ChatGPT这样基于Prompt的工具使得AES更易于使用,教育工作者可以使用自然语言Prompt获得机器生成的分数。尽管取得了进展,但先前的研究表明,微调的LLM存在偏见,特别是针对弱势群体。目前尚不清楚这种偏见是否在基于Prompt的范式中使用最先进的工具持续存在或被放大。由于这些偏见被认为源于预训练模型中嵌入的人口统计信息(即LLM的文本嵌入预测人口属性的能力),本研究探讨了模型基于学生的书面作品预测学生人口属性的能力与基于Prompt的范式中评分任务中的预测偏差之间的关系。我们使用超过25,000名学生的议论文的公开数据集,设计了Prompt来引出GPT-4o的人口统计推断(即性别、第一语言背景),并评估了自动评分的公平性。然后,我们进行了多元回归分析,以探讨模型预测人口统计信息的能力对其评分结果的影响。我们的研究结果表明:(i)基于Prompt的LLM可以在一定程度上从学生的文章中推断出学生的人口统计信息,特别是他们的第一语言背景;(ii)当LLM正确预测学生的母语背景时,评分偏差比不正确预测时更明显;(iii)当LLM正确识别非英语母语者时,非英语母语者的评分误差会增加。
🔬 方法详解
问题定义:论文旨在研究基于Prompt的大型语言模型(LLM)在自动作文评分(AES)中是否存在偏见。现有方法,特别是微调的LLM,已被证明存在偏见,尤其针对弱势群体。基于Prompt的方法虽然降低了技术门槛,但其偏见问题是否依然存在,甚至被放大,尚不清楚。现有方法的痛点在于无法有效避免模型基于学生作文推断出人口统计信息,从而导致评分偏差。
核心思路:论文的核心思路是探究LLM基于学生作文预测人口统计属性的能力与评分偏差之间的关系。如果LLM能够准确推断出学生的人口统计信息(如第一语言背景),那么评分结果是否会受到影响,从而产生偏差。通过分析这种关联性,可以评估基于Prompt的LLM在AES中的公平性。
技术框架:整体流程包括以下几个主要阶段:1) 数据集准备:使用包含超过25,000名学生议论文的公开数据集。2) Prompt设计:设计Prompt来引导GPT-4o推断学生的人口统计信息(性别、第一语言背景)。3) 自动评分:使用GPT-4o对作文进行自动评分。4) 偏差评估:评估自动评分的公平性。5) 回归分析:进行多元回归分析,以探讨模型预测人口统计信息的能力对其评分结果的影响。
关键创新:本研究的关键创新在于将LLM的人口统计信息预测能力与评分偏差联系起来,并使用基于Prompt的范式进行评估。与以往研究主要关注微调模型不同,本研究关注更易于使用的基于Prompt的LLM,并揭示了其潜在的偏见问题。
关键设计:关键设计包括:1) Prompt的设计,需要能够有效引导LLM推断人口统计信息。2) 使用GPT-4o作为评分模型。3) 使用多元回归分析来量化人口统计信息预测能力与评分偏差之间的关系。4) 评估指标的选择,需要能够有效衡量评分的公平性。
📊 实验亮点
实验结果表明,基于Prompt的LLM能够从学生作文中推断出人口统计信息,特别是第一语言背景。当LLM正确预测学生的母语背景时,评分偏差更为明显。此外,对于非英语母语者,当LLM正确识别其身份时,评分误差会增加。这些发现强调了在AES中需要关注和减轻LLM的潜在偏见。
🎯 应用场景
该研究成果可应用于改进自动作文评分系统,减少对特定学生群体的偏见。通过了解LLM如何基于人口统计信息进行评分,可以设计更公平的评分算法和Prompt,从而提高教育评估的公正性和有效性。未来的研究可以探索更多的人口统计因素和更复杂的Prompt设计,以进一步提升AES的公平性。
📄 摘要(原文)
Large Language Models (LLMs) are widely used in Automated Essay Scoring (AES) due to their ability to capture semantic meaning. Traditional fine-tuning approaches required technical expertise, limiting accessibility for educators with limited technical backgrounds. However, prompt-based tools like ChatGPT have made AES more accessible, enabling educators to obtain machine-generated scores using natural-language prompts (i.e., the prompt-based paradigm). Despite advancements, prior studies have shown bias in fine-tuned LLMs, particularly against disadvantaged groups. It remains unclear whether such biases persist or are amplified in the prompt-based paradigm with cutting-edge tools. Since such biases are believed to stem from the demographic information embedded in pre-trained models (i.e., the ability of LLMs' text embeddings to predict demographic attributes), this study explores the relationship between the model's predictive power of students' demographic attributes based on their written works and its predictive bias in the scoring task in the prompt-based paradigm. Using a publicly available dataset of over 25,000 students' argumentative essays, we designed prompts to elicit demographic inferences (i.e., gender, first-language background) from GPT-4o and assessed fairness in automated scoring. Then we conducted multivariate regression analysis to explore the impact of the model's ability to predict demographics on its scoring outcomes. Our findings revealed that (i) prompt-based LLMs can somewhat infer students' demographics, particularly their first-language backgrounds, from their essays; (ii) scoring biases are more pronounced when the LLM correctly predicts students' first-language background than when it does not; and (iii) scoring error for non-native English speakers increases when the LLM correctly identifies them as non-native.