Who's in and who's out? A case study of multimodal CLIP-filtering in DataComp
作者: Rachel Hong, William Agnew, Tadayoshi Kohno, Jamie Morgenstern
分类: cs.CY, cs.CL, cs.CV, cs.LG
发布日期: 2024-05-13 (更新: 2024-10-09)
备注: Content warning: This paper discusses societal stereotypes and sexually-explicit material that may be disturbing, distressing, and/or offensive to the reader
期刊: Proceedings of the 4th ACM Conference on Equity and Access in Algorithms, Mechanisms, and Optimization (EAAMO 2024)
💡 一句话要点
揭示CLIP过滤的数据偏差:DataComp数据集的多模态分析与公平性评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: CLIP过滤 数据偏差 公平性 多模态分析 数据集构建 机器学习 DataComp 排除放大
📋 核心要点
- 现有网络数据过滤方法(如CLIP过滤)在构建大规模数据集时被广泛使用,但其潜在偏差和公平性问题缺乏深入研究。
- 本研究通过多模态分析,揭示了CLIP过滤在DataComp数据集上对特定人群(如LGBTQ+群体)的歧视性排除现象。
- 实验结果表明,CLIP过滤不仅加剧了数据集中已存在的代表性不足问题,而且未能有效过滤掉不适宜内容和受版权保护的内容。
📝 摘要(中文)
随着训练数据集越来越多地来自网络等非结构化、不受控制的环境,研究人员和行业从业者越来越依赖数据过滤技术来“过滤掉”网络抓取数据的“噪声”。虽然数据集已被广泛证明反映了其创建者的偏见和价值观,但本文旨在评估用于创建这些数据集的过滤器。我们表明,图像-文本数据过滤也存在偏差和价值观,编码了关于什么是“高质量”数据的特定概念。通过分析DataComp的CommonPool上图像-文本CLIP过滤的差异,我们发现与某些特定人群(如LGBTQ+群体、年长的女性和年轻的男性)相关的数据具有更高的排除率。此外,我们展示了排除放大的案例:某些边缘化群体不仅在未过滤的数据中代表性不足,而且CLIP过滤以更高的比例排除了这些群体的数据。因此,机器学习流程中的数据过滤步骤可能会加剧数据收集步骤中已经存在的表示差异,尤其是在现有过滤器旨在优化特定选择的下游性能指标(如零样本图像分类准确性)时。最后,我们表明NSFW过滤器未能从CommonPool中删除性内容,并且CLIP过滤以高比例包含了多个类别的受版权保护内容。我们的结论表明需要从根本上改变数据集创建和过滤实践。
🔬 方法详解
问题定义:论文旨在研究使用CLIP模型进行图像-文本数据过滤时,是否会引入或加剧数据集中存在的偏差,导致某些特定人群的数据被不成比例地排除。现有方法主要关注过滤后的下游任务性能,而忽略了过滤过程本身的公平性和潜在的社会影响。
核心思路:论文的核心思路是通过多模态分析,深入研究CLIP过滤在DataComp数据集上的行为,揭示其对不同人群的差异化影响。通过分析图像、文本和网站来源等多种模态的信息,识别出与特定人群相关的数据被排除的模式,并评估过滤器的有效性和公平性。
技术框架:论文采用了一种多模态分析框架,包括以下几个主要步骤:1) 数据集准备:使用DataComp的CommonPool数据集,包含图像、文本和网站来源信息。2) CLIP过滤:应用标准的CLIP过滤方法,根据图像-文本相似度对数据进行筛选。3) 人工标注:对过滤前后的数据进行人工标注,标注内容包括人口统计学属性(如性别、年龄、性取向)和内容属性(如是否包含性内容、是否受版权保护)。4) 偏差分析:分析过滤前后不同人群的数据比例变化,以及不同人群的数据被排除的概率。5) 案例研究:深入分析一些具体的案例,揭示CLIP过滤的潜在问题。
关键创新:论文的关键创新在于其多模态分析方法,能够从多个角度评估CLIP过滤的公平性和有效性。与以往的研究只关注下游任务性能不同,本研究关注过滤过程本身,揭示了其潜在的社会影响。此外,论文还提出了“排除放大”的概念,即CLIP过滤不仅会排除已经代表性不足的人群的数据,而且会以更高的比例排除这些数据。
关键设计:论文的关键设计包括:1) 使用DataComp数据集,该数据集包含丰富的图像、文本和网站来源信息,为多模态分析提供了基础。2) 采用人工标注方法,获取关于人口统计学属性和内容属性的准确信息。3) 使用统计分析方法,量化CLIP过滤对不同人群的影响。4) 通过案例研究,深入分析CLIP过滤的潜在问题。
🖼️ 关键图片
📊 实验亮点
研究发现,CLIP过滤对LGBTQ+群体、年长的女性和年轻的男性等群体的数据具有更高的排除率。此外,CLIP过滤未能有效过滤掉性内容和受版权保护的内容。实验证明,数据过滤步骤可能会加剧数据收集步骤中已经存在的表示差异。
🎯 应用场景
该研究成果可应用于改进大规模数据集的构建流程,设计更公平、更具包容性的数据过滤方法。有助于提升AI系统的公平性、减少歧视,并促进负责任的AI发展。对于搜索引擎、社交媒体等依赖大规模数据集的领域具有重要意义。
📄 摘要(原文)
As training datasets become increasingly drawn from unstructured, uncontrolled environments such as the web, researchers and industry practitioners have increasingly relied upon data filtering techniques to "filter out the noise" of web-scraped data. While datasets have been widely shown to reflect the biases and values of their creators, in this paper we contribute to an emerging body of research that assesses the filters used to create these datasets. We show that image-text data filtering also has biases and is value-laden, encoding specific notions of what is counted as "high-quality" data. In our work, we audit a standard approach of image-text CLIP-filtering on the academic benchmark DataComp's CommonPool by analyzing discrepancies of filtering through various annotation techniques across multiple modalities of image, text, and website source. We find that data relating to several imputed demographic groups -- such as LGBTQ+ people, older women, and younger men -- are associated with higher rates of exclusion. Moreover, we demonstrate cases of exclusion amplification: not only are certain marginalized groups already underrepresented in the unfiltered data, but CLIP-filtering excludes data from these groups at higher rates. The data-filtering step in the machine learning pipeline can therefore exacerbate representation disparities already present in the data-gathering step, especially when existing filters are designed to optimize a specifically-chosen downstream performance metric like zero-shot image classification accuracy. Finally, we show that the NSFW filter fails to remove sexually-explicit content from CommonPool, and that CLIP-filtering includes several categories of copyrighted content at high rates. Our conclusions point to a need for fundamental changes in dataset creation and filtering practices.