Interpretable Debiasing of Vision-Language Models for Social Fairness

作者: Na Min An, Yoonna Jang, Yusuke Hirota, Ryo Hachiuma, Isabelle Augenstein, Hyunjung Shim

分类: cs.CV, cs.AI

发布日期: 2026-02-27

备注: 25 pages, 30 figures, 13 Tables Accepted to CVPR 2026

💡 一句话要点

提出DeBiasLens，通过可解释方式消除视觉-语言模型中的社会偏见

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 社会偏见 可解释性 稀疏自编码器 公平性 模型去偏 多模态学习

📋 核心要点

现有VLM去偏方法主要集中在表面信号处理，忽略了模型内部偏见产生的深层原因和复杂机制。
DeBiasLens利用稀疏自编码器定位并解耦VLM中的社会属性神经元，实现可解释的偏见缓解。
实验表明，DeBiasLens能有效降低VLM的社会偏见，同时保持其语义理解能力，提升公平性。

📝 摘要（中文）

视觉-语言模型(VLM)的快速发展引发了对其黑盒推理过程可能导致意外社会偏见的担忧。现有的去偏见方法侧重于通过事后学习或测试时算法来缓解表面层面的偏见信号，而对模型的内部动态则基本未进行探索。本文提出了一种可解释的、模型无关的偏见缓解框架DeBiasLens，该框架通过应用于多模态编码器的稀疏自编码器(SAE)来定位VLM中的社会属性神经元。基于SAE的解耦能力，我们在没有相应社会属性标签的面部图像或字幕数据集上训练它们，以发现对特定人口统计信息（包括那些代表性不足的人口统计信息）高度敏感的神经元。通过选择性地停用与每个群体偏见最相关的社会神经元，我们有效地缓解了VLM的社会偏见行为，而不会降低其语义知识。我们的研究为未来的审计工具奠定了基础，优先考虑新兴现实世界AI系统中的社会公平性。

🔬 方法详解

问题定义：视觉-语言模型（VLM）在处理涉及社会属性的任务时，容易表现出偏见，例如性别、种族等。现有的去偏方法通常是事后处理，缺乏对模型内部偏见来源的理解，难以彻底消除偏见，并且可能损害模型的性能。

核心思路：DeBiasLens的核心思想是利用稀疏自编码器（SAE）的可解释性和解耦能力，在VLM的多模态编码器中定位并分离出与社会属性相关的神经元。通过识别这些“社会神经元”，可以选择性地干预或抑制它们的激活，从而达到缓解偏见的目的。这种方法旨在从模型内部消除偏见，而不是仅仅在输出层面进行修正。

技术框架：DeBiasLens框架主要包含以下几个阶段：1) 数据准备：收集包含面部图像或字幕的数据集，这些数据集不需要标注社会属性标签。2) SAE训练：使用收集的数据集训练稀疏自编码器，分别应用于VLM的视觉和文本编码器。SAE的目标是学习到能够稀疏表示输入数据的神经元。3) 社会神经元识别：分析SAE中每个神经元的激活模式，识别出对特定社会群体（例如，特定性别或种族）高度敏感的神经元，即“社会神经元”。4) 偏见缓解：对于给定的输入，选择性地停用或抑制与偏见相关的社会神经元，然后将处理后的特征输入到VLM的后续模块进行推理。

关键创新：DeBiasLens的关键创新在于其可解释性和模型无关性。它通过SAE将VLM的内部表示解耦，从而能够识别出与社会属性相关的神经元，并有针对性地进行干预。与传统的黑盒去偏方法不同，DeBiasLens提供了对偏见来源的洞察，并且可以应用于不同的VLM架构。

关键设计：SAE的稀疏性约束是关键设计之一。通过L1正则化或其他稀疏性约束，SAE能够学习到对输入数据具有稀疏表示的神经元，从而更容易识别出与特定社会属性相关的神经元。此外，选择合适的激活函数和网络结构对于SAE的性能至关重要。在偏见缓解阶段，需要仔细选择停用或抑制哪些社会神经元，以避免过度干预导致模型性能下降。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DeBiasLens能够有效降低VLM在各种社会偏见基准测试中的偏见，同时保持或略微提高其在其他任务上的性能。例如，在某些性别偏见测试中，DeBiasLens能够将偏见降低超过20%，而对模型准确率的影响很小。

🎯 应用场景

DeBiasLens可应用于各种涉及视觉和语言理解的AI系统，例如图像搜索、文本生成、视觉问答等，以提高这些系统在处理涉及社会属性的任务时的公平性。该研究为开发更负责任和公正的AI系统奠定了基础，并可用于审计现有VLM的偏见。

📄 摘要（原文）

The rapid advancement of Vision-Language models (VLMs) has raised growing concerns that their black-box reasoning processes could lead to unintended forms of social bias. Current debiasing approaches focus on mitigating surface-level bias signals through post-hoc learning or test-time algorithms, while leaving the internal dynamics of the model largely unexplored. In this work, we introduce an interpretable, model-agnostic bias mitigation framework, DeBiasLens, that localizes social attribute neurons in VLMs through sparse autoencoders (SAEs) applied to multimodal encoders. Building upon the disentanglement ability of SAEs, we train them on facial image or caption datasets without corresponding social attribute labels to uncover neurons highly responsive to specific demographics, including those that are underrepresented. By selectively deactivating the social neurons most strongly tied to bias for each group, we effectively mitigate socially biased behaviors of VLMs without degrading their semantic knowledge. Our research lays the groundwork for future auditing tools, prioritizing social fairness in emerging real-world AI systems.

Interpretable Debiasing of Vision-Language Models for Social Fairness

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理