Intersectional Bias in Japanese Large Language Models from a Contextualized Perspective
作者: Hitomi Yanaka, Xinqi He, Jie Lu, Namgi Han, Sunjin Oh, Ryoma Kumon, Yuma Matsuoka, Katsuhiko Watabe, Yuko Itatsu
分类: cs.CL, cs.AI
发布日期: 2025-06-14 (更新: 2025-07-27)
备注: Accepted to the 6th Workshop on Gender Bias in Natural Language Processing (GeBNLP2025) at ACL2025
💡 一句话要点
提出inter-JBBQ基准,揭示日语大语言模型中基于上下文的交叉性偏见
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 社会偏见 交叉性 日语 基准数据集
📋 核心要点
- 现有研究主要关注单一社会属性的偏见,忽略了社会偏见中重要的交叉性,即社会属性组合及其上下文对偏见的影响。
- 论文构建了日语基准inter-JBBQ,用于评估大语言模型在问答场景中存在的交叉性偏见,关注社会属性组合及其上下文。
- 实验结果表明,即使社会属性组合相同,大语言模型的偏见输出也会因上下文而异,揭示了交叉性偏见的复杂性。
📝 摘要(中文)
越来越多的研究开始关注快速发展的大语言模型(LLMs)中的社会偏见。虽然大多数研究集中在单一社会属性中出现的偏见,但社会科学研究表明,社会偏见通常以交叉性的形式出现——这是一种由社会属性引起的,具有构成性和上下文相关性的偏见视角。在本研究中,我们构建了日语基准inter-JBBQ,旨在评估LLMs在问答场景中的交叉性偏见。通过使用inter-JBBQ分析GPT-4o和Swallow,我们发现即使在社会属性的组合相同的情况下,有偏见的输出也会因其上下文而异。
🔬 方法详解
问题定义:现有研究主要关注大语言模型在单一社会属性上的偏见,忽略了社会偏见往往以交叉性的形式出现,即不同社会属性(如性别、种族、职业等)相互作用,并在特定上下文中产生复杂的偏见。现有方法难以有效评估这种交叉性偏见,缺乏针对日语大语言模型的专门基准。
核心思路:论文的核心思路是构建一个专门用于评估日语大语言模型中交叉性偏见的基准数据集inter-JBBQ。该基准的设计重点在于捕捉不同社会属性组合在不同上下文中的偏见表现,从而更全面地评估模型的社会偏见。
技术框架:inter-JBBQ基准数据集的构建流程未知。论文使用该基准数据集对GPT-4o和Swallow两个日语大语言模型进行评估,通过分析模型在不同上下文下的输出,来判断模型是否存在交叉性偏见。
关键创新:关键创新在于提出了一个专门针对日语大语言模型的交叉性偏见评估基准inter-JBBQ。该基准考虑了社会属性的组合以及上下文对偏见的影响,能够更全面地评估模型的社会偏见。
关键设计:inter-JBBQ基准数据集的具体构建细节未知,包括所包含的社会属性、上下文类型、问题形式等。论文重点在于使用该基准进行评估,并分析结果,而非基准本身的构建方法。
📊 实验亮点
使用inter-JBBQ基准对GPT-4o和Swallow进行评估,发现即使在社会属性组合相同的情况下,模型的偏见输出也会因上下文而异。这一结果表明,交叉性偏见在大语言模型中普遍存在,且具有高度的上下文依赖性。具体的性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于评估和改进日语大语言模型,降低其在实际应用中产生社会偏见的风险。通过使用inter-JBBQ基准,开发者可以更好地了解模型在不同社会属性组合和上下文中的偏见表现,从而有针对性地进行优化,构建更公平、更负责任的AI系统。该研究也为其他语言的大语言模型偏见评估提供了借鉴。
📄 摘要(原文)
An increasing number of studies have examined the social bias of rapidly developed large language models (LLMs). Although most of these studies have focused on bias occurring in a single social attribute, research in social science has shown that social bias often occurs in the form of intersectionality -- the constitutive and contextualized perspective on bias aroused by social attributes. In this study, we construct the Japanese benchmark inter-JBBQ, designed to evaluate the intersectional bias in LLMs on the question-answering setting. Using inter-JBBQ to analyze GPT-4o and Swallow, we find that biased output varies according to its contexts even with the equal combination of social attributes.