Digital Skin, Digital Bias: Uncovering Tone-Based Biases in LLMs and Emoji Embeddings
作者: Mingchen Li, Wajdi Aljedaani, Yingjie Liu, Navyasri Meka, Xuan Lu, Xinyue Ye, Junhua Ding, Yunhe Feng
分类: cs.SI, cs.AI, cs.CL, cs.HC
发布日期: 2026-04-08
备注: Accepted at WWW'26
💡 一句话要点
揭示LLM和Emoji嵌入中基于肤色的偏见,促进AI公平性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 肤色偏见 表情符号嵌入 大型语言模型 社会公平 AI伦理
📋 核心要点
- 现有表情符号嵌入模型在处理肤色修饰符时存在严重缺陷,无法准确反映不同肤色的语义和情感。
- 通过多方面分析,揭示了LLM和表情符号嵌入模型在语义一致性、情感极性和表征相似性方面的系统性差异。
- 实验结果表明,不同肤色的表情符号在情感表达上存在偏差,这突显了AI模型中潜在的社会偏见问题。
📝 摘要(中文)
肤色表情符号对于促进在线交流中的个人身份和社会包容至关重要。随着AI模型,特别是大型语言模型(LLM)越来越多地调节网络平台上的互动,这些系统通过其对此类符号的表示来延续社会偏见的风险是一个重大问题。本文首次对两种不同模型类别中肤色表情符号表示的偏见进行了大规模比较研究。我们系统地评估了专用表情符号嵌入模型(emoji2vec,emoji-sw2v)和四个现代LLM(Llama,Gemma,Qwen和Mistral)。我们的分析首先揭示了一个关键的性能差距:虽然LLM表现出对肤色修饰符的强大支持,但广泛使用的专用表情符号模型表现出严重的缺陷。更重要的是,对语义一致性、表征相似性、情感极性和核心偏见的多方面调查揭示了系统性差异。我们发现了与不同肤色表情符号相关的情感倾斜和不一致含义的证据,突出了这些基础模型中潜在的偏见。我们的研究结果强调了开发人员和平台迫切需要审计和减轻这些表征性危害,确保AI在网络上的作用促进真正的公平,而不是强化社会偏见。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)和专用表情符号嵌入模型在处理不同肤色表情符号时存在的偏见问题。现有方法,如emoji2vec和emoji-sw2v,在表示不同肤色表情符号的语义和情感方面存在不足,可能强化社会偏见。这些模型无法准确捕捉不同肤色表情符号之间的细微差别,导致信息传递失真。
核心思路:论文的核心思路是通过多维度、大规模的对比分析,揭示LLM和专用表情符号嵌入模型在处理不同肤色表情符号时的潜在偏见。通过评估语义一致性、表征相似性、情感极性和核心偏见,量化不同模型在处理不同肤色表情符号时的差异,从而发现潜在的偏见模式。这种对比分析有助于识别哪些模型更易于产生偏见,并为未来的模型改进提供指导。
技术框架:论文采用了一种多阶段的评估框架。首先,收集包含不同肤色表情符号的数据集。然后,使用不同的模型(emoji2vec, emoji-sw2v, Llama, Gemma, Qwen, Mistral)对这些表情符号进行嵌入表示。接下来,通过计算语义相似度、情感极性和表征相似性等指标,对不同模型的输出进行定量分析。最后,通过人工评估和统计分析,识别潜在的偏见模式。
关键创新:论文的关键创新在于首次对LLM和专用表情符号嵌入模型在处理不同肤色表情符号时的偏见进行了大规模的对比研究。之前的研究主要集中在单一模型或特定类型的偏见上,而本文通过多维度、多模型的对比分析,更全面地揭示了潜在的偏见问题。此外,论文还提出了一系列评估指标,用于量化不同模型在处理不同肤色表情符号时的差异。
关键设计:论文的关键设计包括:1) 使用WordNet计算语义一致性;2) 使用预训练情感分析模型计算情感极性;3) 使用余弦相似度计算表征相似性;4) 设计专门的偏见评估指标,例如评估不同肤色表情符号在特定语境下的使用频率。此外,论文还对LLM进行了微调,以提高其对肤色修饰符的识别能力。
🖼️ 关键图片
📊 实验亮点
研究发现,虽然LLM对肤色修饰符的支持较好,但专用表情符号模型(emoji2vec, emoji-sw2v)存在严重缺陷。在语义一致性、情感极性和表征相似性方面,不同肤色的表情符号表现出显著差异,表明模型存在潜在的偏见。例如,某些肤色的表情符号在情感表达上更倾向于负面情绪,这反映了社会偏见在AI模型中的潜在影响。
🎯 应用场景
该研究成果可应用于社交媒体平台、在线交流工具和AI助手等领域,帮助开发者和平台更好地理解和减轻AI模型中的偏见。通过改进表情符号嵌入模型和LLM,可以促进更公平、包容的在线交流环境,减少因肤色等因素造成的歧视和误解。未来的研究可以进一步探索其他类型的偏见,并开发更有效的偏见缓解技术。
📄 摘要(原文)
Skin-toned emojis are crucial for fostering personal identity and social inclusion in online communication. As AI models, particularly Large Language Models (LLMs), increasingly mediate interactions on web platforms, the risk that these systems perpetuate societal biases through their representation of such symbols is a significant concern. This paper presents the first large-scale comparative study of bias in skin-toned emoji representations across two distinct model classes. We systematically evaluate dedicated emoji embedding models (emoji2vec, emoji-sw2v) against four modern LLMs (Llama, Gemma, Qwen, and Mistral). Our analysis first reveals a critical performance gap: while LLMs demonstrate robust support for skin tone modifiers, widely-used specialized emoji models exhibit severe deficiencies. More importantly, a multi-faceted investigation into semantic consistency, representational similarity, sentiment polarity, and core biases uncovers systemic disparities. We find evidence of skewed sentiment and inconsistent meanings associated with emojis across different skin tones, highlighting latent biases within these foundational models. Our findings underscore the urgent need for developers and platforms to audit and mitigate these representational harms, ensuring that AI's role on the web promotes genuine equity rather than reinforcing societal biases.