SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models
作者: Quentin Guimard, Federico Bartsch, Simone Caldarella, Rahaf Aljundi, Elisa Ricci, Massimiliano Mancini
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-03-19
备注: CVPR Findings 2026. Project website: https://sparse-embedding-modulation.github.io/
💡 一句话要点
提出稀疏嵌入调制(SEM),用于视觉-语言模型的事后去偏。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 去偏 稀疏表示 自编码器 公平性 零样本学习 事后处理
📋 核心要点
- 现有CLIP等视觉-语言模型存在严重的社会和虚假偏差,直接在密集嵌入空间去偏易损失语义信息。
- 提出SEM框架,在稀疏自编码器潜在空间中解耦特征,选择性调制偏差神经元,保留任务相关神经元。
- 实验表明,SEM在检索和零样本分类任务中,显著提升了公平性,且保持了较好的性能。
📝 摘要(中文)
连接视觉和语言的模型,如CLIP,是多模态AI的关键组成部分,但其大规模、未经筛选的训练数据引入了严重的社会和虚假偏差。现有的事后去偏方法通常直接在密集的CLIP嵌入空间中操作,其中偏差和任务相关信息高度纠缠。这种纠缠限制了它们在不降低语义保真度的情况下消除偏差的能力。本文提出稀疏嵌入调制(SEM),一种在稀疏自编码器(SAE)潜在空间中操作的事后、零样本去偏框架。通过将CLIP文本嵌入分解为解耦的特征,SEM识别并调制与偏差相关的神经元,同时保留与查询相关的神经元。这实现了更精确的非线性干预。在四个基准数据集和两个CLIP骨干网络上,SEM在检索和零样本分类中取得了显著的公平性提升。结果表明,稀疏潜在表示为视觉-语言模型的事后去偏提供了有效的基础。
🔬 方法详解
问题定义:视觉-语言模型(如CLIP)在训练数据中存在偏差,导致模型在下游任务中产生不公平的结果。现有的事后去偏方法直接在CLIP的密集嵌入空间进行操作,但偏差信息和任务相关信息高度耦合,难以有效分离,导致去偏的同时会损害模型的性能。
核心思路:论文的核心思路是将CLIP的文本嵌入投影到一个稀疏的潜在空间中,在这个空间中,不同的神经元对应于不同的语义特征。通过稀疏自编码器(SAE)实现这种解耦。然后,识别出与偏差相关的神经元,并对其进行调制,从而在不影响任务相关信息的前提下,消除偏差。
技术框架:SEM框架主要包含以下几个步骤:1) 使用预训练的CLIP模型提取文本嵌入。2) 使用稀疏自编码器(SAE)将CLIP文本嵌入投影到稀疏潜在空间。3) 识别稀疏潜在空间中与偏差相关的神经元。4) 对这些神经元进行调制,以消除偏差。5) 使用去偏后的文本嵌入进行下游任务,如图像检索和零样本分类。
关键创新:SEM的关键创新在于利用稀疏表示来解耦偏差信息和任务相关信息。与直接在密集嵌入空间进行操作的方法相比,SEM能够更精确地定位和消除偏差,同时更好地保留模型的语义信息。此外,SEM是一种事后方法,不需要重新训练CLIP模型,具有很高的灵活性。
关键设计:稀疏自编码器(SAE)是SEM的关键组成部分。SAE的目标是学习一个稀疏的潜在表示,使得原始输入可以从该表示中重建。论文使用了L1正则化来鼓励稀疏性。具体来说,SAE的损失函数包括重建损失和稀疏性惩罚项。与偏差相关的神经元的识别是通过分析每个神经元的激活与偏差属性之间的相关性来实现的。调制的方式是对这些神经元的激活值进行缩放。
🖼️ 关键图片
📊 实验亮点
SEM在四个基准数据集和两个CLIP骨干网络上进行了评估,结果表明SEM在检索和零样本分类任务中取得了显著的公平性提升。例如,在某个数据集上,SEM将公平性指标提升了10%以上,同时保持了与原始CLIP模型相当的性能。与现有的事后去偏方法相比,SEM在公平性和性能之间取得了更好的平衡。
🎯 应用场景
该研究成果可应用于各种需要公平性的视觉-语言任务,例如图像检索、零样本分类、视觉问答等。通过消除模型中的偏差,可以提高模型在不同人群中的公平性,避免歧视性结果,具有重要的社会价值。未来可以进一步探索如何自动识别和消除偏差,以及如何将该方法应用于其他类型的多模态模型。
📄 摘要(原文)
Models that bridge vision and language, such as CLIP, are key components of multimodal AI, yet their large-scale, uncurated training data introduce severe social and spurious biases. Existing post-hoc debiasing methods often operate directly in the dense CLIP embedding space, where bias and task-relevant information are highly entangled. This entanglement limits their ability to remove bias without degrading semantic fidelity. In this work, we propose Sparse Embedding Modulation (SEM), a post-hoc, zero-shot debiasing framework that operates in a Sparse Autoencoder (SAE) latent space. By decomposing CLIP text embeddings into disentangled features, SEM identifies and modulates bias-relevant neurons while preserving query-relevant ones. This enables more precise, non-linear interventions. Across four benchmark datasets and two CLIP backbones, SEM achieves substantial fairness gains in retrieval and zero-shot classification. Our results demonstrate that sparse latent representations provide an effective foundation for post-hoc debiasing of vision-language models.