Alignment Reduces Expressed but Not Encoded Gender Bias: A Unified Framework and Study

作者: Nour Bouchouchi, Thiabult Laugel, Xavier Renard, Christophe Marsala, Marie-Jeanne Lesot, Marcin Detyniecki

分类: cs.CL

发布日期: 2026-03-25

💡 一句话要点

提出统一框架，研究对齐训练如何影响LLM的内隐与外显性别偏见

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 性别偏见 对齐训练 内部表征 公平性 可解释性 自然语言处理

📋 核心要点

现有方法主要关注减少LLM生成输出中的性别偏见，忽略了模型内部表征的影响，且评估benchmark可能不贴合实际。
论文提出统一框架，通过相同中性prompt，联合分析LLM内隐和外显性别偏见，从而直接比较二者。
实验表明，对齐训练虽能减少外显偏见，但内隐性别信息依然存在，且在特定prompt下会被激活，去偏见效果在故事生成等真实场景中不佳。

📝 摘要（中文）

大型语言模型（LLM）在训练过程中学习到的社会规律可能导致下游应用中的性别偏见。目前，大多数缓解措施侧重于减少生成输出中的偏见，通常在结构化基准上进行评估，但这引发了两个问题：输出层面的评估无法揭示对齐是否修改了模型的基础表征；结构化基准可能无法反映真实的用例场景。我们提出了一个统一的框架，通过相同的中性提示，联合分析LLM中的内隐和外显性别偏见，从而可以直接比较内部表征中编码的性别相关信息与生成输出中表达的偏见。与先前报告的微弱或不一致的相关性研究相反，我们发现在统一协议下测量时，潜在的性别信息与表达的偏见之间存在一致的关联。我们进一步研究了通过旨在减少性别偏见的监督微调进行对齐的效果。结果表明，虽然后者确实减少了表达的偏见，但可测量的性别相关关联仍然存在于内部表征中，并且可以在对抗性提示下重新激活。最后，我们考虑了两种真实的设置，并表明在结构化基准上观察到的去偏见效果不一定能推广，例如，故事生成。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）中存在的性别偏见问题。现有方法主要关注减少生成文本中的偏见，而忽略了模型内部表征中潜在的性别信息。此外，现有评估方法依赖于结构化的benchmark，可能无法真实反映LLM在实际应用中的表现。因此，如何全面评估和缓解LLM中的性别偏见，特别是考虑内部表征的影响，是本文要解决的关键问题。

核心思路：论文的核心思路是建立一个统一的框架，同时分析LLM的内隐（内部表征）和外显（生成输出）性别偏见。通过使用相同的、性别中立的prompt，可以比较内部表征中编码的性别信息与生成输出中表达的偏见，从而更全面地了解对齐训练（debiasing）对LLM的影响。这种统一的视角有助于揭示对齐训练是否真正消除了性别偏见，还是仅仅掩盖了它。

技术框架：该框架包含以下几个主要步骤：1) 使用性别中立的prompt输入LLM；2) 提取LLM的内部表征（例如，特定层的激活值）；3) 分析内部表征中编码的性别信息，例如，通过分类器判断表征是否包含性别信息；4) 分析LLM生成的文本输出中表达的性别偏见，例如，通过预定义的指标或人工评估；5) 比较内部表征中的性别信息与生成输出中的性别偏见，从而评估对齐训练的效果。

关键创新：论文的关键创新在于提出了一个统一的框架，能够同时分析LLM的内隐和外显性别偏见。与现有方法相比，该框架能够更全面地评估对齐训练的效果，揭示对齐训练是否真正消除了性别偏见，还是仅仅掩盖了它。此外，论文还研究了对齐训练在真实场景中的泛化能力，发现其在结构化benchmark上的效果可能无法推广到故事生成等任务中。

关键设计：论文的关键设计包括：1) 使用性别中立的prompt，以避免prompt本身引入性别偏见；2) 选择合适的内部表征，例如，特定层的激活值，以捕捉LLM的潜在性别信息；3) 设计合适的指标来量化内部表征中的性别信息和生成输出中的性别偏见；4) 使用监督微调进行对齐训练，并评估其对内隐和外显性别偏见的影响；5) 在真实场景中评估对齐训练的泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，对齐训练虽然可以减少LLM生成文本中的性别偏见，但模型内部表征中仍然存在可测量的性别相关信息，并且在对抗性prompt下可以被重新激活。此外，在结构化benchmark上观察到的去偏见效果不一定能推广到故事生成等真实场景中。这些发现强调了全面评估和缓解LLM性别偏见的重要性。

🎯 应用场景

该研究成果可应用于开发更公平、无偏见的大型语言模型，尤其是在涉及敏感信息的应用场景，如招聘、信贷评估、医疗诊断等。通过深入理解和有效缓解LLM中的性别偏见，可以避免算法歧视，提升用户体验，并促进社会公平。

📄 摘要（原文）

During training, Large Language Models (LLMs) learn social regularities that can lead to gender bias in downstream applications. Most mitigation efforts focus on reducing bias in generated outputs, typically evaluated on structured benchmarks, which raises two concerns: output-level evaluation does not reveal whether alignment modifies the model's underlying representations, and structured benchmarks may not reflect realistic usage scenarios. We propose a unified framework to jointly analyze intrinsic and extrinsic gender bias in LLMs using identical neutral prompts, enabling direct comparison between gender-related information encoded in internal representations and bias expressed in generated outputs. Contrary to prior work reporting weak or inconsistent correlations, we find a consistent association between latent gender information and expressed bias when measured under the unified protocol. We further examine the effect of alignment through supervised fine-tuning aimed at reducing gender bias. Our results suggest that while the latter indeed reduces expressed bias, measurable gender-related associations are still present in internal representations, and can be reactivated under adversarial prompting. Finally, we consider two realistic settings and show that debiasing effects observed on structured benchmarks do not necessarily generalize, e.g., to the case of story generation.

Alignment Reduces Expressed but Not Encoded Gender Bias: A Unified Framework and Study

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理