Is She Even Relevant? When BERT Ignores Explicit Gender Cues
作者: Jonas Klein, Chiara Manna, Eva Vanmassenhove
分类: cs.CL
发布日期: 2026-05-08
💡 一句话要点
通过检查点级分析揭示荷兰语BERT模型中性别偏见的形成机制与上下文处理局限
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自然语言处理 性别偏见 BERT模型 上下文嵌入 可解释性分析 荷兰语处理 模型公平性
📋 核心要点
- 现有研究多关注英语模型,缺乏对具备复杂形态性别语言(如荷兰语)中偏见形成机制的深入理解。
- 本文通过从零训练荷兰语BERT,利用线性SVM构建动态性别子空间,追踪模型训练过程中性别信息的编码演变。
- 实验发现模型难以利用显式上下文线索覆盖统计偏见,导致在反刻板印象场景中表现出持续的男性默认倾向。
📝 摘要(中文)
大型语言模型中的性别偏见研究多集中于英语,而对具有语法或形态性别的语言研究尚显不足。本文以从零训练的荷兰语BERT模型为对象,通过对Transformer架构中偏见形成的检查点级分析,探讨了性别信息的涌现过程。研究利用线性SVM构建动态性别子空间,追踪性别信息在训练过程中的线性编码演变。实验通过受控句式模板测试模型是否能利用显式性别线索覆盖统计学偏见(如职业刻板印象)。结果表明,尽管性别信息在训练第20个epoch左右变得线性可分,但模型在处理反刻板印象上下文时,难以根据显式线索更新内部性别表示,导致系统性地偏向男性解释,揭示了模型在上下文动态化处理上的局限性。
🔬 方法详解
问题定义:论文旨在解决BERT模型在处理具有形态性别语言时,如何形成性别偏见,以及模型是否能根据上下文中的显式性别线索(如代词)动态调整其内部表示,从而克服预训练习得的统计性职业偏见。
核心思路:通过对模型训练全过程的检查点进行采样,利用线性SVM探测性别信息在嵌入空间中的线性可分性,并对比模型在刻板印象与反刻板印象句式中的预测准确度,以评估模型上下文表示的动态更新能力。
技术框架:研究流程包括:1. 从零训练荷兰语BERT模型;2. 在不同训练阶段提取上下文嵌入;3. 使用线性SVM在嵌入空间中构建性别子空间;4. 设计受控句式模板(如“她/他是[职业]”),通过对比预测概率评估模型对显式性别线索的敏感度。
关键创新:首次针对荷兰语这一具有显式形态性别标记的语言,进行了细粒度的检查点级偏见演变分析,揭示了模型内部性别表示的“僵化”现象,即模型在处理反刻板印象时无法有效利用上下文信息。
关键设计:采用线性SVM作为探测器(Probing)来量化性别信息的线性编码程度;通过对比职业-性别配对的预测准确率,量化模型对“男性默认”偏见的依赖程度,并分析性别信息在嵌入空间多维度上的分布特征。
🖼️ 关键图片
📊 实验亮点
实验发现,尽管性别信息在训练第20个epoch后已在嵌入空间中高度线性可分,但模型对显式性别线索的利用率极低。在反刻板印象测试中,模型对职业的预测准确率显著低于刻板印象场景,且无论上下文如何明确,模型均表现出强烈的“男性默认”倾向,证明了当前Transformer架构在上下文动态化处理上存在严重的偏见固化问题。
🎯 应用场景
该研究对于提升多语言NLP模型的公平性具有重要价值。其分析框架可应用于评估其他形态复杂语言(如德语、法语)的预训练模型,帮助开发者识别模型在处理性别、职业等社会属性时的偏见来源,从而指导更具包容性的模型微调策略与去偏算法设计,减少AI在自动化招聘、翻译等领域的歧视风险。
📄 摘要(原文)
Gender bias in large language models has primarily been investigated for English, while languages with grammatical or morphological gender remain comparatively understudied. This paper investigates how and when gender information emerges in a Dutch BERT model trained from scratch, offering one of the first checkpoint-level analyses of bias formation in a Transformer architecture for a language combining overt morphological gender marking and generic forms. By extracting contextual embeddings throughout training, we construct dynamic gender subspaces using linear SVMs to trace when gender becomes linearly encoded and how this encoding evolves over time. Contextual embeddings are often assumed to integrate contextual cues robustly, allowing models to adjust the representation of a word depending on its more local usage. We therefore test whether explicit gender cues in controlled sentence templates (e.g., Zij is een loodgieter ('She is a plumber')) can override learned statistical associations (plumber -> male). Our findings challenge this assumption: although gender becomes clearly linearly separable around epoch 20 and is distributed across multiple embedding dimensions, the model struggles to update its internal gender representation in light of explicit contextual cues in short sentence templates. Stereotypical gender-profession pairings are predicted far more accurately than anti-stereotypical ones, and generic forms in Dutch systematically default to a male interpretation, even when the context explicitly denotes a female referent. Together, our results seem to indicate that contextualization in the representations learned by our Dutch BERT model is not sufficiently dynamic along the probed gender direction: explicit gender cues in anti-stereotypical contexts are not reliably reflected in the resulting representations, resulting in persistent male-default behaviour.