UGID: Unified Graph Isomorphism for Debiasing Large Language Models

📄 arXiv: 2603.19144v1 📥 PDF

作者: Zikang Ding, Junchi Yao, Junhao Li, Yi Zhang, Wenbo Jiang, Hongbo Liu, Lijie Hu

分类: cs.CL, cs.AI

发布日期: 2026-03-19


💡 一句话要点

提出UGID框架,通过统一图同构性来消除大语言模型中的偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 偏见消除 图同构 内部表示 反事实推理 公平性 Transformer 注意力机制

📋 核心要点

  1. 现有大语言模型的去偏见方法(如输出层调整或数据优化)无法彻底消除模型内部表示中存在的偏见。
  2. UGID框架将Transformer建模为计算图,通过约束反事实输入下的图结构不变性来消除偏见,仅允许敏感属性存在差异。
  3. 实验表明,UGID能有效减少同分布和异分布场景下的偏见,显著降低内部结构差异,并保持模型的安全性和通用能力。

📝 摘要(中文)

大型语言模型(LLMs)表现出明显的社会偏见。基于输出层或数据优化的去偏见方法无法完全解决这些偏见,并且许多先前的工作表明偏见嵌入在内部表示中。我们提出了用于去偏见大型语言模型的统一图同构(UGID)框架,这是一种内部表示级别的去偏见框架,它将Transformer建模为结构化的计算图,其中注意力机制定义了图的路由边,隐藏状态定义了图的节点。具体来说,去偏见被表述为强制图结构在反事实输入之间的不变性,只允许在敏感属性上存在差异。UGID共同约束了偏见敏感区域中的注意力路由和隐藏表示,有效地防止了偏见在架构组件之间的迁移。为了在不降低通用能力的情况下实现有效的行为对齐,我们引入了对敏感logits的对数空间约束和基于选择性锚点的目标来保留定义语义。在大型语言模型上的大量实验表明,UGID在同分布和异分布设置下都能有效地减少偏见,显著减少内部结构差异,并保持模型的安全性和效用。

🔬 方法详解

问题定义:现有的大语言模型存在严重的社会偏见,这些偏见不仅体现在模型的输出层面,更深层次地嵌入在模型的内部表示中。仅仅通过调整输出或者优化训练数据,无法从根本上解决这些偏见问题。因此,需要一种方法能够直接作用于模型的内部表示,消除其中的偏见。

核心思路:UGID的核心思路是将Transformer模型视为一个计算图,其中注意力机制定义了图的边(路由),隐藏状态定义了图的节点。通过强制模型在针对敏感属性进行反事实输入时,保持图结构的同构性(即结构不变),从而消除模型内部的偏见。换句话说,只有与敏感属性相关的部分可以改变,其他部分的计算逻辑应该保持一致。

技术框架:UGID框架主要包含以下几个关键模块:1) 图构建模块:将Transformer模型转化为计算图,确定节点(隐藏状态)和边(注意力权重)。2) 反事实输入生成模块:针对敏感属性生成反事实输入,例如将性别从男性改为女性。3) 图同构性约束模块:通过损失函数约束原始输入和反事实输入对应的计算图结构尽可能相似,只允许与敏感属性相关的部分存在差异。4) 行为对齐模块:为了防止去偏见操作影响模型的通用能力,引入了对敏感logits的约束和基于锚点的目标函数,以保持模型的语义信息。

关键创新:UGID的关键创新在于将Transformer模型视为计算图,并利用图同构性的概念来消除偏见。与以往的去偏见方法相比,UGID直接作用于模型的内部表示,能够更有效地消除深层次的偏见。此外,UGID通过联合约束注意力路由和隐藏表示,防止了偏见在模型不同组件之间的迁移。

关键设计:UGID的关键设计包括:1) 图同构性度量:使用合适的度量方式来衡量两个计算图之间的相似度,例如基于注意力权重的差异。2) 反事实输入生成策略:如何有效地生成反事实输入,以保证其与原始输入在语义上尽可能接近,只在敏感属性上存在差异。3) 损失函数设计:设计合适的损失函数,平衡图同构性约束、行为对齐和模型性能之间的关系。4) 敏感区域选择:确定模型中哪些区域对偏见最为敏感,从而更有针对性地进行去偏见操作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UGID框架在多个大型语言模型上取得了显著的去偏见效果,在同分布和异分布设置下均优于现有方法。具体而言,UGID在减少内部结构差异方面表现突出,同时保持了模型的安全性和通用能力。实验还验证了UGID能够有效防止偏见在模型不同组件之间的迁移。

🎯 应用场景

UGID框架可应用于各种需要消除偏见的大语言模型应用场景,例如公平的招聘系统、公正的信贷评估、无偏见的新闻推荐等。该研究有助于提升人工智能系统的公平性、透明性和可信度,减少算法歧视带来的社会影响,并为构建负责任的人工智能提供技术支撑。

📄 摘要(原文)

Large language models (LLMs) exhibit pronounced social biases. Output-level or data-optimization--based debiasing methods cannot fully resolve these biases, and many prior works have shown that biases are embedded in internal representations. We propose \underline{U}nified \underline{G}raph \underline{I}somorphism for \underline{D}ebiasing large language models (\textit{\textbf{UGID}}), an internal-representation--level debiasing framework for large language models that models the Transformer as a structured computational graph, where attention mechanisms define the routing edges of the graph and hidden states define the graph nodes. Specifically, debiasing is formulated as enforcing invariance of the graph structure across counterfactual inputs, with differences allowed only on sensitive attributes. \textit{\textbf{UGID}} jointly constrains attention routing and hidden representations in bias-sensitive regions, effectively preventing bias migration across architectural components. To achieve effective behavioral alignment without degrading general capabilities, we introduce a log-space constraint on sensitive logits and a selective anchor-based objective to preserve definitional semantics. Extensive experiments on large language models demonstrate that \textit{\textbf{UGID}} effectively reduces bias under both in-distribution and out-of-distribution settings, significantly reduces internal structural discrepancies, and preserves model safety and utility.