DECASTE: Unveiling Caste Stereotypes in Large Language Models through Multi-Dimensional Bias Analysis
作者: Prashanth Vijayaraghavan, Soroush Vosoughi, Lamogha Chiazor, Raya Horesh, Rogerio Abreu de Paula, Ehsan Degan, Vandana Mukherjee
分类: cs.CL, cs.CY
发布日期: 2025-05-20 (更新: 2025-06-05)
备注: 7 (content pages) + 2 (reference pages) + 5 (Appendix pages), 5 figures, 6 Tables, IJCAI 2025
💡 一句话要点
提出DECASTE框架以揭示大型语言模型中的种姓偏见
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 种姓偏见 大型语言模型 自然语言处理 多维度评估 社会偏见 人工智能伦理 公平性评估
📋 核心要点
- 现有大型语言模型在处理种姓偏见时缺乏系统性评估,尤其是对印度边缘化种姓群体的偏见未得到充分关注。
- DECASTE框架通过多维度评估方法,结合定制化提示策略,旨在全面检测和分析LLMs中的种姓偏见。
- 实验结果表明,主流LLMs在对待达利特和舒德拉等被压迫种姓时,偏见评分显著高于对主导种姓的处理,揭示了潜在的社会偏见。
📝 摘要(中文)
近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著进展,然而这些模型也反映并延续了有害的社会偏见,尤其是基于种姓的偏见。本文提出DECASTE,一个多维框架,用于检测和评估LLMs中的隐性和显性种姓偏见。该方法从社会文化、经济、教育和政治四个维度评估种姓公平性,结果显示这些模型在对待被压迫与主导种姓群体时存在显著差异,强调了需要更全面的偏见评估方法以应对现实世界中的潜在风险。
🔬 方法详解
问题定义:本文旨在解决大型语言模型中存在的种姓偏见问题,现有方法未能充分识别和评估这种隐性偏见,尤其是对印度的边缘化种姓群体的影响。
核心思路:DECASTE框架通过多维度的评估方法,结合定制化的提示策略,旨在全面检测和分析LLMs中的种姓偏见,确保评估的全面性和准确性。
技术框架:该框架包括四个主要维度的评估:社会文化、经济、教育和政治。每个维度都通过特定的提示策略进行评估,形成一个综合的偏见检测系统。
关键创新:DECASTE的创新之处在于其多维度的评估方法,能够系统性地揭示和量化种姓偏见,而不仅仅依赖于单一维度的分析,这与现有方法形成鲜明对比。
关键设计:在技术细节上,DECASTE采用了定制化的提示策略,结合不同的评估维度,确保能够捕捉到隐性和显性的种姓偏见,具体参数设置和损失函数设计尚未详细披露。
🖼️ 关键图片
📊 实验亮点
实验结果显示,主流大型语言模型在处理达利特和舒德拉等被压迫种姓时,偏见评分显著高于对主导种姓的处理,揭示了模型输出中潜在的社会偏见。这一发现强调了对种姓偏见的系统性评估的重要性,推动了对LLMs的更全面的理解和改进。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、社会科学研究和人工智能伦理等。通过揭示和评估种姓偏见,DECASTE框架可以帮助开发更公平和包容的语言模型,减少社会偏见在技术应用中的影响,推动社会公正。未来,该框架还可扩展到其他类型的社会偏见评估中,具有广泛的实际价值。
📄 摘要(原文)
Recent advancements in large language models (LLMs) have revolutionized natural language processing (NLP) and expanded their applications across diverse domains. However, despite their impressive capabilities, LLMs have been shown to reflect and perpetuate harmful societal biases, including those based on ethnicity, gender, and religion. A critical and underexplored issue is the reinforcement of caste-based biases, particularly towards India's marginalized caste groups such as Dalits and Shudras. In this paper, we address this gap by proposing DECASTE, a novel, multi-dimensional framework designed to detect and assess both implicit and explicit caste biases in LLMs. Our approach evaluates caste fairness across four dimensions: socio-cultural, economic, educational, and political, using a range of customized prompting strategies. By benchmarking several state-of-the-art LLMs, we reveal that these models systematically reinforce caste biases, with significant disparities observed in the treatment of oppressed versus dominant caste groups. For example, bias scores are notably elevated when comparing Dalits and Shudras with dominant caste groups, reflecting societal prejudices that persist in model outputs. These results expose the subtle yet pervasive caste biases in LLMs and emphasize the need for more comprehensive and inclusive bias evaluation methodologies that assess the potential risks of deploying such models in real-world contexts.