Unsupervised Concept Vector Extraction for Bias Control in LLMs
作者: Hannah Cyberey, Yangfeng Ji, David Evans
分类: cs.CL, cs.CY
发布日期: 2025-02-27 (更新: 2025-09-18)
备注: Accepted to EMNLP 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种无监督概念向量提取方法,用于控制大型语言模型中的偏见。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 偏见控制 表征工程 概念向量 无监督学习
📋 核心要点
- 大型语言模型存在偏见,但现有方法多为黑盒处理,忽略了模型内部概念的表示。
- 提出一种无监督概念向量提取方法,通过概率加权提取概念表征,并选择引导向量操纵模型表征。
- 实验证明该方法能有效减轻LLMs中的性别偏见,并可推广到种族偏见。
📝 摘要(中文)
大型语言模型(LLMs)普遍存在刻板印象和偏见。虽然已有多种策略试图缓解这些偏见,但大多数工作将偏见视为黑盒问题,忽略了模型内部概念的表示方式。本文借鉴了表征工程的技术,研究了“性别”概念在LLMs中的表示。我们提出了一种新的方法,通过概率加权提取概念表征,无需标注数据,并高效地选择用于测量和操纵模型表征的引导向量。我们开发了一种基于投影的方法,能够精确地引导模型预测,并证明了其在减轻LLMs中的性别偏见方面的有效性,并表明该方法可以推广到种族偏见。代码已公开。
🔬 方法详解
问题定义:大型语言模型(LLMs)会表现出刻板印象和偏见,例如性别偏见和种族偏见。现有的缓解偏见的方法通常将LLM视为黑盒,直接修改模型的输出,而忽略了模型内部是如何表示和处理这些概念的。这种黑盒方法缺乏可解释性,难以深入理解和有效控制偏见的根源。
核心思路:本文的核心思路是通过表征工程的方法,直接干预LLM内部的表征,从而控制模型的行为。具体来说,就是提取模型中与特定概念(如性别)相关的概念向量,然后通过修改模型在该方向上的激活,来影响模型的预测。这种方法的核心在于如何有效地提取概念向量,以及如何精确地控制模型在该方向上的行为。
技术框架:该方法主要包含以下几个阶段:1) 无监督概念向量提取:利用概率加权的方法,从LLM的激活中提取概念向量,无需标注数据。2) 引导向量选择:高效地选择一个引导向量,用于测量和操纵模型的表征。3) 基于投影的引导:开发一种基于投影的方法,能够精确地引导模型预测。具体来说,就是将模型的激活投影到概念向量的正交补空间,从而消除概念向量的影响。
关键创新:该方法最重要的创新点在于提出了一个无监督的概念向量提取方法。与以往需要标注数据的方法不同,该方法利用概率加权,能够自动地从LLM的激活中提取概念向量。这使得该方法更加灵活和通用,可以应用于各种不同的概念和模型。此外,基于投影的引导方法也能够更精确地控制模型在该方向上的行为。
关键设计:在无监督概念向量提取阶段,使用概率加权来确定哪些激活与目标概念相关。具体来说,就是计算每个激活与目标概念的概率,然后将激活乘以该概率作为权重。在基于投影的引导阶段,使用正交投影来消除概念向量的影响。具体来说,就是将模型的激活投影到概念向量的正交补空间,从而消除概念向量的影响。损失函数的设计未知,网络结构沿用LLM本身。
🖼️ 关键图片
📊 实验亮点
该研究提出了一种无监督的概念向量提取方法,能够有效减轻LLMs中的性别偏见,并可推广到种族偏见。实验结果表明,该方法能够显著降低模型在性别和种族相关的任务上的偏见,同时保持模型的性能。具体的性能数据和对比基线在论文中进行了详细的展示,但在此处未提供。
🎯 应用场景
该研究成果可应用于各种需要控制LLM偏见的场景,例如招聘、信贷评估、内容生成等。通过干预模型内部的表征,可以减少模型在这些场景中产生的歧视性结果,提高公平性和公正性。此外,该方法还可以用于研究LLM内部的知识表示,帮助我们更好地理解LLM的工作原理,并为开发更加可控和可靠的LLM提供指导。
📄 摘要(原文)
Large language models (LLMs) are known to perpetuate stereotypes and exhibit biases. Various strategies have been proposed to mitigate these biases, but most work studies biases as a black-box problem without considering how concepts are represented within the model. We adapt techniques from representation engineering to study how the concept of "gender" is represented within LLMs. We introduce a new method that extracts concept representations via probability weighting without labeled data and efficiently selects a steering vector for measuring and manipulating the model's representation. We develop a projection-based method that enables precise steering of model predictions and demonstrate its effectiveness in mitigating gender bias in LLMs and show that it also generalizes to racial bias. Our code is available at: https://github.com/hannahxchen/gender-bias-steering