SPAGBias: Uncovering and Tracing Structured Spatial Gender Bias in Large Language Models

📄 arXiv: 2604.14672v1 📥 PDF

作者: Binxian Su, Haoye Lou, Shucheng Zhu, Weikang Wang, Ying Liu, Dong Yu, Pengyuan Liu

分类: cs.CL

发布日期: 2026-04-16

备注: Accepted by ACL 2026


💡 一句话要点

提出SPAGBias框架,揭示并追踪大语言模型中结构化的空间性别偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 空间性别偏见 城市规划 偏见评估 社会公平

📋 核心要点

  1. 现有研究缺乏对LLM在城市空间中性别偏见的系统评估,忽略了空间组织中固有的性别等级制度。
  2. SPAGBias框架通过构建城市微空间分类、提示库和多层诊断方法,系统性地评估LLM中的空间性别偏见。
  3. 实验结果表明,LLM存在结构化的空间性别偏见,且该偏见在模型训练的不同阶段被嵌入和强化,并在下游任务中产生负面影响。

📝 摘要(中文)

大型语言模型(LLM)越来越多地应用于城市规划领域,但由于性别空间理论强调性别等级制度如何嵌入空间组织中,因此人们担心LLM可能会复制或放大这种偏见。本文提出了SPAGBias,这是第一个系统评估LLM中空间性别偏见的框架。它结合了62个城市微空间的分类、提示库和三个诊断层:显式(强制选择重采样)、概率(token级别的不对称性)和建构性(语义和叙事角色分析)。通过测试六个代表性模型,我们识别出超越公共-私人划分的结构化性别-空间关联,形成了细致的微观层面映射。故事生成揭示了情感、措辞和社会角色如何共同塑造“空间性别叙事”。我们还研究了提示设计、温度和模型规模如何影响偏见的表达。追踪实验表明,这些模式嵌入并在模型管道(预训练、指令微调和奖励建模)中得到加强,发现模型关联大大超过了现实世界的分布。下游实验进一步表明,这种偏见在规范性和描述性应用设置中都会产生具体的失败。这项工作将社会学理论与计算分析联系起来,将偏见研究扩展到空间领域,并揭示了LLM如何通过语言编码社会性别认知。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在城市空间理解中存在的性别偏见问题。现有方法未能充分评估和量化LLM在处理空间信息时可能存在的性别刻板印象和偏见,尤其是在城市微观空间层面。这种偏见可能导致LLM在城市规划、社会服务等应用中产生不公平或歧视性的结果。

核心思路:论文的核心思路是构建一个系统性的评估框架,通过多层次的诊断方法,揭示和追踪LLM中结构化的空间性别偏见。该框架结合了城市微空间分类、提示工程和统计分析,旨在量化LLM对不同性别在不同空间中的关联程度,并分析这些关联如何影响LLM的生成内容。通过追踪偏见在模型训练过程中的传播,可以更好地理解偏见的来源和影响。

技术框架:SPAGBias框架包含三个主要模块:1) 城市微空间分类:构建包含62个城市微空间的分类体系,涵盖公共、私人、工作、休闲等多种场景。2) 提示库:设计一系列提示模板,用于引导LLM生成与特定空间和性别相关的文本。3) 诊断层:包含三个层次的诊断方法:显式诊断(强制选择重采样,评估LLM对性别和空间的直接偏好)、概率诊断(token级别的不对称性分析,量化LLM生成文本中性别和空间相关的token概率差异)和建构性诊断(语义和叙事角色分析,分析LLM生成的故事中性别角色的情感、措辞和社会角色)。

关键创新:该论文的关键创新在于:1) 首次提出了针对LLM空间性别偏见的系统性评估框架SPAGBias。2) 构建了包含62个城市微空间的细粒度分类体系,能够更精确地评估LLM在不同空间场景下的性别偏见。3) 提出了多层次的诊断方法,能够从不同角度量化和分析LLM中的空间性别偏见。4) 追踪了偏见在模型训练过程中的传播,揭示了偏见的来源和影响。

关键设计:在显式诊断中,使用强制选择重采样方法,通过比较LLM对不同性别和空间的偏好程度来量化偏见。在概率诊断中,使用token级别的不对称性分析,计算LLM生成文本中性别和空间相关的token概率差异,并使用统计检验来评估差异的显著性。在建构性诊断中,使用情感分析、措辞分析和社会角色分析等方法,分析LLM生成的故事中性别角色的情感倾向、语言风格和社会地位。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在城市微空间中存在显著的性别偏见,且这种偏见在模型训练的不同阶段被嵌入和强化。例如,模型倾向于将女性与家庭、购物等空间联系起来,而将男性与工作、运动等空间联系起来。追踪实验发现,模型关联显著超过了现实世界的分布,表明LLM放大了社会中的性别刻板印象。下游实验表明,这种偏见会导致LLM在城市规划和社会服务等应用中产生不公平或歧视性的结果。

🎯 应用场景

该研究成果可应用于城市规划、社会服务、教育等领域,帮助开发者和使用者更好地理解和减轻LLM中的空间性别偏见。通过改进模型训练数据和算法,可以开发出更加公平和包容的AI系统,避免在实际应用中产生歧视性结果。此外,该研究也为其他类型的偏见评估提供了借鉴,促进了AI伦理和公平性的发展。

📄 摘要(原文)

Large language models (LLMs) are being increasingly used in urban planning, but since gendered space theory highlights how gender hierarchies are embedded in spatial organization, there is concern that LLMs may reproduce or amplify such biases. We introduce SPAGBias - the first systematic framework to evaluate spatial gender bias in LLMs. It combines a taxonomy of 62 urban micro-spaces, a prompt library, and three diagnostic layers: explicit (forced-choice resampling), probabilistic (token-level asymmetry), and constructional (semantic and narrative role analysis). Testing six representative models, we identify structured gender-space associations that go beyond the public-private divide, forming nuanced micro-level mappings. Story generation reveals how emotion, wording, and social roles jointly shape "spatial gender narratives". We also examine how prompt design, temperature, and model scale influence bias expression. Tracing experiments indicate that these patterns are embedded and reinforced across the model pipeline (pre-training, instruction tuning, and reward modeling), with model associations found to substantially exceed real-world distributions. Downstream experiments further reveal that such biases produce concrete failures in both normative and descriptive application settings. This work connects sociological theory with computational analysis, extending bias research into the spatial domain and uncovering how LLMs encode social gender cognition through language.