ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts
作者: Jinho Choi, Hyesu Lim, Steffen Schneider, Jaegul Choo
分类: cs.CV, cs.AI
发布日期: 2025-10-30
备注: Published in the Thirty-Ninth Conference on Neural Information Processing Systems (NeurIPS 2025)
💡 一句话要点
ConceptScope:通过解耦视觉概念表征来量化和识别数据集偏差。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据集偏差 视觉概念 稀疏自编码器 可解释性 模型诊断
📋 核心要点
- 现有方法缺乏在没有细粒度标注的情况下有效识别数据集偏差的能力,限制了模型鲁棒性和公平性。
- ConceptScope利用视觉基础模型的表征,通过稀疏自编码器自动发现和量化人类可解释的视觉概念。
- 实验表明ConceptScope能够有效检测已知和未知的偏差,并提供与语义相关的空间归因,提升数据集审计能力。
📝 摘要(中文)
数据集偏差在机器学习数据集中普遍存在,表现为数据点偏向某些概念。然而,在没有昂贵且细粒度的属性标注的情况下,系统地识别这些偏差具有挑战性。本文提出了ConceptScope,这是一个可扩展的自动化框架,通过使用在视觉基础模型表征上训练的稀疏自编码器来发现和量化人类可解释的概念,从而分析视觉数据集。ConceptScope根据概念的语义相关性和与类标签的统计相关性将概念分类为目标、上下文和偏差类型,从而实现类级别的数据集特征描述、偏差识别以及通过基于概念的子分组进行鲁棒性评估。通过与带标注数据集的比较,验证了ConceptScope能够捕获广泛的视觉概念,包括对象、纹理、背景、面部属性、情绪和动作。此外,概念激活产生与语义上有意义的图像区域对齐的空间归因。ConceptScope可靠地检测已知的偏差(例如,Waterbirds中的背景偏差)并揭示先前未标注的偏差(例如,ImageNet中共同出现的对象),从而为数据集审计和模型诊断提供了一个实用的工具。
🔬 方法详解
问题定义:论文旨在解决机器学习数据集中普遍存在的数据集偏差问题,即数据点在某些概念上存在倾斜。现有方法通常依赖于昂贵且细粒度的属性标注才能识别这些偏差,这限制了它们的可扩展性和适用性。因此,如何自动且高效地识别数据集中的偏差成为一个关键挑战。
核心思路:ConceptScope的核心思路是利用视觉基础模型学习到的通用表征,并通过稀疏自编码器从中提取人类可解释的视觉概念。通过分析这些概念与类标签之间的关系,可以将概念分类为目标概念、上下文概念和偏差概念。这种方法无需人工标注,即可自动发现和量化数据集中的偏差。
技术框架:ConceptScope框架主要包含以下几个阶段:1) 使用视觉基础模型(如CLIP)提取图像的视觉表征;2) 在这些表征上训练稀疏自编码器,以学习一组稀疏的、人类可解释的视觉概念;3) 根据概念与类标签之间的语义相关性和统计相关性,将概念分类为目标概念、上下文概念和偏差概念;4) 利用这些概念进行数据集特征描述、偏差识别和基于概念的子分组,从而评估模型的鲁棒性。
关键创新:ConceptScope的关键创新在于其能够自动发现和量化人类可解释的视觉概念,而无需人工标注。通过将稀疏自编码器与视觉基础模型相结合,ConceptScope能够有效地提取图像中的语义信息,并将其转化为可解释的概念表示。此外,ConceptScope还提出了一种基于语义相关性和统计相关性的概念分类方法,能够准确地识别数据集中的偏差。
关键设计:在ConceptScope中,稀疏自编码器的训练目标是最小化重构误差,同时鼓励编码的稀疏性。稀疏性约束可以通过L1正则化来实现。概念与类标签之间的语义相关性可以通过计算它们在预训练的词向量空间中的距离来衡量。统计相关性可以通过计算概念激活与类标签之间的相关系数来衡量。这些参数的设计旨在确保提取的概念具有可解释性,并且能够准确地反映数据集中的偏差。
📊 实验亮点
ConceptScope在多个数据集上进行了验证,包括Waterbirds和ImageNet。实验结果表明,ConceptScope能够可靠地检测已知的偏差(如Waterbirds中的背景偏差),并揭示先前未标注的偏差(如ImageNet中共同出现的对象)。此外,概念激活产生的空间归因与语义上有意义的图像区域对齐,进一步验证了ConceptScope的有效性。
🎯 应用场景
ConceptScope可应用于数据集审计、模型诊断和鲁棒性评估等领域。它可以帮助研究人员和工程师识别数据集中的偏差,从而改进数据收集和模型训练策略,提高模型的公平性和泛化能力。此外,ConceptScope还可以用于构建更可靠和可信赖的AI系统。
📄 摘要(原文)
Dataset bias, where data points are skewed to certain concepts, is ubiquitous in machine learning datasets. Yet, systematically identifying these biases is challenging without costly, fine-grained attribute annotations. We present ConceptScope, a scalable and automated framework for analyzing visual datasets by discovering and quantifying human-interpretable concepts using Sparse Autoencoders trained on representations from vision foundation models. ConceptScope categorizes concepts into target, context, and bias types based on their semantic relevance and statistical correlation to class labels, enabling class-level dataset characterization, bias identification, and robustness evaluation through concept-based subgrouping. We validate that ConceptScope captures a wide range of visual concepts, including objects, textures, backgrounds, facial attributes, emotions, and actions, through comparisons with annotated datasets. Furthermore, we show that concept activations produce spatial attributions that align with semantically meaningful image regions. ConceptScope reliably detects known biases (e.g., background bias in Waterbirds) and uncovers previously unannotated ones (e.g, co-occurring objects in ImageNet), offering a practical tool for dataset auditing and model diagnostics.