Failure of contextual invariance in gender inference with large language models
作者: Sagar Kumar, Ariel Flint, Luca Maria Aiello, Andrea Baronchelli
分类: cs.CL, cs.AI, cs.CY
发布日期: 2026-03-24
💡 一句话要点
揭示大语言模型在性别推断中违反上下文不变性,挑战现有评估标准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 性别推断 上下文不变性 偏差评估 公平性 Contextuality-by-Default 社会偏见
📋 核心要点
- 现有大语言模型评估假设其输出在上下文等价的任务中保持稳定,但这一假设缺乏充分验证。
- 论文通过引入极简的、理论上无关的上下文,观察模型在性别推断任务中的输出变化。
- 实验发现,即使是微小的上下文变化也会显著影响模型输出,并削弱与性别刻板印象的关联。
📝 摘要(中文)
本文研究了大型语言模型(LLM)在性别推断任务中,输出结果在上下文等价情况下是否保持稳定这一假设。通过受控的代词选择任务,引入了最小的、理论上无信息的语篇上下文,发现这会导致模型输出发生巨大且系统的变化。在去上下文化的设置中存在的与文化性别刻板印象的相关性,在引入上下文后减弱或消失,而理论上不相关的特征,例如与无关指称对象的代词性别,成为模型行为的最具信息量的预测指标。Contextuality-by-Default分析表明,在19-52%的模型案例中,这种依赖性在考虑了上下文对单个输出的所有边际效应后仍然存在,并且不能归因于简单的代词重复。这些发现表明,即使在几乎相同的句法结构下,LLM的输出也违反了上下文不变性,这对高风险环境下的偏差基准测试和部署具有重要意义。
🔬 方法详解
问题定义:现有的大语言模型评估方法通常假设模型在上下文等价的情况下,对于同一任务的输出应该保持一致。然而,这种“上下文不变性”的假设在实际应用中可能并不成立,尤其是在涉及社会偏见(如性别偏见)的任务中。现有的评估方法可能无法准确反映模型在真实场景下的表现,导致对模型偏差的低估或误判。
核心思路:本文的核心思路是通过引入极简的、理论上不应影响结果的上下文信息,来观察大语言模型在性别推断任务中的输出变化。如果模型在这些微小上下文变化下表现出显著的差异,则表明其违反了上下文不变性。这种方法旨在揭示模型对上下文的敏感性,并评估现有评估方法的局限性。
技术框架:本文采用了一种受控的代词选择任务,作为测试框架。具体流程如下: 1. 构建测试用例:设计一系列句子,其中包含需要推断性别的指称对象,并引入极简的上下文信息(例如,一个与指称对象无关的代词)。 2. 模型预测:使用大语言模型对这些句子进行性别推断,记录模型的输出结果。 3. 统计分析:分析模型输出与上下文信息之间的关系,例如,无关代词的性别是否会影响模型对目标指称对象的性别推断。 4. Contextuality-by-Default (CbD) 分析:使用 CbD 分析方法,进一步探究模型输出对上下文的依赖性,排除简单的代词重复等因素的影响。
关键创新:本文最重要的技术创新在于其对上下文不变性的评估方法。与传统的评估方法不同,本文没有关注模型在不同数据集或任务上的泛化能力,而是关注模型在极简上下文变化下的输出一致性。通过这种方法,本文能够更敏感地检测到模型对上下文的依赖性,并揭示模型可能存在的偏差。
关键设计:在实验设计方面,本文的关键设计包括: 1. 极简上下文:引入的上下文信息非常有限,理论上不应影响性别推断的结果。 2. 受控变量:对上下文信息进行精确控制,例如,控制无关代词的性别,以便分析其对模型输出的影响。 3. CbD 分析:采用 Contextuality-by-Default 分析方法,排除混淆因素的影响,更准确地评估模型对上下文的依赖性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是极小的上下文变化也会显著影响大语言模型在性别推断任务中的输出。在19%-52%的案例中,模型输出对上下文的依赖性无法用简单的代词重复来解释。此外,与文化性别刻板印象的相关性在引入上下文后减弱或消失,而理论上不相关的特征(如无关代词的性别)成为模型行为的重要预测指标。
🎯 应用场景
该研究成果对大语言模型的公平性和可靠性评估具有重要意义。它可以应用于高风险场景,如招聘、信贷评估等,帮助识别和减轻模型中的偏差,确保AI系统的公平性和公正性。未来的研究可以进一步探索不同类型的上下文信息对模型输出的影响,并开发更鲁棒的评估方法。
📄 摘要(原文)
Standard evaluation practices assume that large language model (LLM) outputs are stable under contextually equivalent formulations of a task. Here, we test this assumption in the setting of gender inference. Using a controlled pronoun selection task, we introduce minimal, theoretically uninformative discourse context and find that this induces large, systematic shifts in model outputs. Correlations with cultural gender stereotypes, present in decontextualized settings, weaken or disappear once context is introduced, while theoretically irrelevant features, such as the gender of a pronoun for an unrelated referent, become the most informative predictors of model behaviour. A Contextuality-by-Default analysis reveals that, in 19--52\% of cases across models, this dependence persists after accounting for all marginal effects of context on individual outputs and cannot be attributed to simple pronoun repetition. These findings show that LLM outputs violate contextual invariance even under near-identical syntactic formulations, with implications for bias benchmarking and deployment in high-stakes settings.