BRIDGE the Gap: Mitigating Bias Amplification in Automated Scoring of English Language Learners via Inter-group Data Augmentation

📄 arXiv: 2602.23580v1 📥 PDF

作者: Yun Wang, Xuansheng Wu, Jingyuan Huang, Lei Liu, Xiaoming Zhai, Ninghao Liu

分类: cs.CL, cs.AI

发布日期: 2026-02-27

备注: 15 pages, 1 figure


💡 一句话要点

提出BRIDGE框架,通过跨组数据增强缓解英语学习者自动评分中的偏差放大问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动评分 偏差缓解 数据增强 英语学习者 公平性

📋 核心要点

  1. 现有自动评分系统在英语学习者(ELLs)群体中存在偏差放大问题,导致评分不公平。
  2. BRIDGE框架通过跨组数据增强,将高分非ELL样本的知识迁移到ELL语言模式中,合成高质量高分ELL样本。
  3. 实验表明,BRIDGE能有效减少ELL学生的预测偏差,且性能与使用额外真实数据相当。

📝 摘要(中文)

在教育评估领域,自动评分系统越来越依赖于深度学习和大型语言模型(LLMs)。然而,这些系统面临着偏差放大的重大风险,即学生群体之间的模型预测差距变得比训练数据中观察到的差距更大。对于英语学习者(ELLs)等弱势群体来说,这个问题尤其严重,因为模型可能会继承并进一步放大数据中现有的差异。我们发现这个问题与表征偏差密切相关:少数群体(高分ELL)样本的稀缺使得使用经验风险最小化训练的模型倾向于多数群体(非ELL)的语言模式。因此,模型倾向于低估ELL学生,即使他们表现出相当的领域知识,但使用了不同的语言模式,从而损害了自动评分结果的公平性。为了缓解这个问题,我们提出了BRIDGE,一个为低资源评估环境设计的偏差减少跨组数据生成框架。BRIDGE不是依赖于有限的少数群体样本,而是通过将来自大量高分非ELL样本的与结构相关的(即,与评分标准对齐的知识和证据)内容“粘贴”到真实的ELL语言模式中来合成高分ELL样本。我们进一步引入了一个判别器模型来确保合成样本的质量。在加州科学测试(CAST)数据集上的实验表明,BRIDGE有效地减少了高分ELL学生的预测偏差,同时保持了整体评分性能。值得注意的是,我们的方法实现了与使用额外真实人工数据相当的公平性提升,为确保大规模评估中的公平评分提供了一种经济高效的解决方案。

🔬 方法详解

问题定义:论文旨在解决英语学习者(ELLs)自动评分中存在的偏差放大问题。现有方法由于训练数据中高分ELL样本的稀缺,导致模型倾向于学习非ELL的语言模式,从而低估了具有领域知识但语言表达不同的ELL学生。这种偏差放大了群体间的差距,损害了评分的公平性。

核心思路:论文的核心思路是通过数据增强来平衡不同群体间的样本数量,特别是增加高分ELL样本的数量。BRIDGE框架通过将非ELL样本中的领域知识“粘贴”到ELL学生的语言模式中,合成高质量的高分ELL样本,从而缓解数据稀疏问题,减少模型对非ELL语言模式的偏好。

技术框架:BRIDGE框架主要包含以下几个模块:1) 内容提取模块:从高分非ELL样本中提取与评分标准相关的知识和证据。2) 语言模式提取模块:从ELL样本中提取其特有的语言表达模式。3) 数据合成模块:将提取的知识和证据“粘贴”到ELL语言模式中,生成合成的高分ELL样本。4) 判别器模型:用于评估合成样本的质量,确保其真实性和有效性。整体流程是先分别提取两类样本的特征,然后进行合成,最后通过判别器筛选。

关键创新:BRIDGE框架的关键创新在于其跨组数据增强策略。与传统的同组数据增强方法不同,BRIDGE利用非ELL样本的知识来增强ELL样本,从而弥补了ELL样本的不足,并减少了模型对非ELL语言模式的依赖。此外,判别器模型的引入保证了合成样本的质量,避免了引入噪声数据。

关键设计:内容提取模块和语言模式提取模块的具体实现方式未知,可能使用了预训练语言模型或领域知识图谱。判别器模型可能采用了二元分类器,用于区分真实样本和合成样本。损失函数的设计需要考虑合成样本的质量和多样性,可能包括对抗损失和重构损失等。具体的参数设置和网络结构在论文中可能没有详细描述,需要进一步查阅相关资料。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,BRIDGE框架能够有效减少高分ELL学生的预测偏差,同时保持整体评分性能。该方法在公平性提升方面与使用额外真实人工数据相当,为大规模评估中的公平评分提供了一种经济高效的解决方案。具体的性能数据和对比基线在论文中有所展示,但此处未提供。

🎯 应用场景

该研究成果可应用于大规模英语语言能力评估、自适应学习系统和个性化教育等领域。通过减少自动评分中的偏差,可以提高评分的公平性和准确性,为英语学习者提供更公正的评估结果和更有效的学习支持。该方法具有成本效益,可推广到其他低资源语言或领域。

📄 摘要(原文)

In the field of educational assessment, automated scoring systems increasingly rely on deep learning and large language models (LLMs). However, these systems face significant risks of bias amplification, where model prediction gaps between student groups become larger than those observed in training data. This issue is especially severe for underrepresented groups such as English Language Learners (ELLs), as models may inherit and further magnify existing disparities in the data. We identify that this issue is closely tied to representation bias: the scarcity of minority (high-scoring ELL) samples makes models trained with empirical risk minimization favor majority (non-ELL) linguistic patterns. Consequently, models tend to under-predict ELL students who even demonstrate comparable domain knowledge but use different linguistic patterns, thereby undermining the fairness of automated scoring outcomes. To mitigate this, we propose BRIDGE, a Bias-Reducing Inter-group Data GEneration framework designed for low-resource assessment settings. Instead of relying on the limited minority samples, BRIDGE synthesizes high-scoring ELL samples by "pasting" construct-relevant (i.e., rubric-aligned knowledge and evidence) content from abundant high-scoring non-ELL samples into authentic ELL linguistic patterns. We further introduce a discriminator model to ensure the quality of synthetic samples. Experiments on California Science Test (CAST) datasets demonstrate that BRIDGE effectively reduces prediction bias for high-scoring ELL students while maintaining overall scoring performance. Notably, our method achieves fairness gains comparable to using additional real human data, offering a cost-effective solution for ensuring equitable scoring in large-scale assessments.