Social Perception of Faces in a Vision-Language Model
作者: Carina I. Hausladen, Manuel Knott, Colin F. Camerer, Pietro Perona
分类: cs.CV, cs.AI, cs.CY, cs.LG
发布日期: 2024-08-26 (更新: 2025-09-15)
期刊: Published in the Proceedings of the 2025 ACM Conference on Fairness, Accountability, and Transparency (FAccT 2025)
💡 一句话要点
利用CLIP研究人脸社会感知:揭示模型偏见与属性影响
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 视觉-语言模型 人脸社会感知 模型偏见 CLIP 合成人脸 属性控制 公平性
📋 核心要点
- 现有方法难以控制人脸属性间的相关性,导致社会感知研究中出现混淆。
- 通过系统操纵人脸的年龄、性别、种族等属性,研究CLIP对人脸的社会感知。
- 实验表明CLIP在人脸社会感知上存在偏见,尤其对黑人女性面部表现出极端值。
📝 摘要(中文)
本文探索了广泛使用的开源视觉-语言模型CLIP对人脸的社会感知能力。通过比较不同文本提示与一系列人脸图像在CLIP嵌入空间中的相似性,研究了CLIP如何理解人脸的社会属性。人脸图像是合成的,并在年龄、性别、种族、面部表情、光照和姿势六个维度上进行系统且独立的控制。这种方法避免了真实数据中属性间不受控的相关性带来的混淆,从而实现实验性而非观察性的研究。研究发现,CLIP能够对人脸图像做出细粒度的人类社会判断;年龄、性别和种族会系统性地影响CLIP对人脸的社会感知,表明CLIP在这些受法律保护的属性上存在偏见,尤其是在黑人女性的面部上表现出极端的社会感知值;面部表情对社会感知的影响大于年龄和光照。该研究提出的新方法,基于社会心理学文献和对个体属性的操纵,比以往的观察性方法更可靠,可用于研究任何视觉-语言模型中的偏见。
🔬 方法详解
问题定义:论文旨在研究视觉-语言模型CLIP对人脸的社会感知能力,并识别其中存在的偏见。现有方法通常使用真实世界的数据,但这些数据中人脸的各种属性(如年龄、性别、种族、表情等)之间存在复杂的关联,难以分离各个属性对社会感知的影响,从而导致研究结果的偏差。
核心思路:论文的核心思路是通过系统地控制人脸图像的各个属性,构建一个可控的实验环境。通过独立地改变年龄、性别、种族、表情、光照和姿势等属性,可以精确地测量每个属性对CLIP社会感知的影响,避免了真实数据中属性间相关性带来的混淆。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建合成人脸数据集,该数据集中的人脸图像在六个维度上进行系统且独立的控制;2) 构建文本提示,这些提示基于社会心理学中常用的社会感知术语;3) 使用CLIP模型提取人脸图像和文本提示的嵌入向量;4) 计算人脸图像嵌入向量和文本提示嵌入向量之间的相似度,以此衡量CLIP对人脸的社会感知;5) 分析不同人脸属性对社会感知的影响,识别模型中存在的偏见。
关键创新:该研究的关键创新在于其实验方法,即通过系统地操纵人脸图像的各个属性,构建一个可控的实验环境。这种方法避免了真实数据中属性间相关性带来的混淆,从而能够更准确地测量每个属性对CLIP社会感知的影响。此外,该研究还首次将这种方法应用于研究视觉-语言模型中的偏见。
关键设计:在人脸数据集的构建中,论文使用了合成人脸图像,并在年龄、性别、种族、表情、光照和姿势六个维度上进行系统且独立的控制。在文本提示的构建中,论文使用了社会心理学中常用的社会感知术语,例如“可信的”、“友好的”等。在相似度计算中,论文使用了余弦相似度来衡量人脸图像嵌入向量和文本提示嵌入向量之间的相似度。
🖼️ 关键图片
📊 实验亮点
研究发现,CLIP能够对人脸图像做出细粒度的人类社会判断。年龄、性别和种族会系统性地影响CLIP对人脸的社会感知,尤其是在黑人女性的面部上表现出极端的社会感知值。面部表情对社会感知的影响大于年龄和光照,与年龄的影响相当。这些发现揭示了CLIP在人脸社会感知方面存在的偏见,并强调了控制人脸属性在研究中的重要性。
🎯 应用场景
该研究成果可应用于评估和改进视觉-语言模型中的偏见,尤其是在人脸识别、情感分析等涉及社会感知的任务中。通过识别和消除模型中的偏见,可以提高模型的公平性和可靠性,避免歧视性结果的产生。此外,该研究的方法也可推广到其他模态和任务中,用于评估和改进各种AI系统的公平性。
📄 摘要(原文)
We explore social perception of human faces in CLIP, a widely used open-source vision-language model. To this end, we compare the similarity in CLIP embeddings between different textual prompts and a set of face images. Our textual prompts are constructed from well-validated social psychology terms denoting social perception. The face images are synthetic and are systematically and independently varied along six dimensions: the legally protected attributes of age, gender, and race, as well as facial expression, lighting, and pose. Independently and systematically manipulating face attributes allows us to study the effect of each on social perception and avoids confounds that can occur in wild-collected data due to uncontrolled systematic correlations between attributes. Thus, our findings are experimental rather than observational. Our main findings are three. First, while CLIP is trained on the widest variety of images and texts, it is able to make fine-grained human-like social judgments on face images. Second, age, gender, and race do systematically impact CLIP's social perception of faces, suggesting an undesirable bias in CLIP vis-a-vis legally protected attributes. Most strikingly, we find a strong pattern of bias concerning the faces of Black women, where CLIP produces extreme values of social perception across different ages and facial expressions. Third, facial expression impacts social perception more than age and lighting as much as age. The last finding predicts that studies that do not control for unprotected visual attributes may reach the wrong conclusions on bias. Our novel method of investigation, which is founded on the social psychology literature and on the experiments involving the manipulation of individual attributes, yields sharper and more reliable observations than previous observational methods and may be applied to study biases in any vision-language model.