Analyzing the Safety of Japanese Large Language Models in Stereotype-Triggering Prompts

📄 arXiv: 2503.01947v2 📥 PDF

作者: Akito Nakanishi, Yukie Sano, Geng Liu, Francesco Pierri

分类: cs.CL, cs.CY

发布日期: 2025-03-03 (更新: 2025-03-05)

备注: This paper has been submitted to IEEE Transactions on Artificial Intelligence for possible publication


💡 一句话要点

分析日语大型语言模型在刻板印象触发提示下的安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 刻板印象 安全性评估 日语LLM 直接评估

📋 核心要点

  1. 现有LLM刻板印象研究主要集中于英语模型,缺乏对日语等非英语模型的深入分析,尤其是在直接评估设置下。
  2. 该研究通过构建包含社会群体术语和刻板印象诱导模板的日语提示,直接评估日语LLM在刻板印象触发下的安全性。
  3. 实验结果表明,日语原生模型LLM-jp的拒绝率最低,更容易产生有害和负面响应,提示格式对模型输出有显著影响。

📝 摘要(中文)

近年来,大型语言模型因其巨大的潜力而备受关注,但同时也迅速出现了对其内在刻板印象和偏见导致不安全行为的担忧。现有关于LLM中刻板印象的研究主要依赖于间接评估设置,即提示模型在与特定社会群体相关的成对句子之间进行选择。最近,出现了直接评估方法,检查开放式的模型响应,以克服先前方法的局限性,例如注释者偏差。现有研究大多集中在以英语为中心的LLM上,而对非英语模型(尤其是日语)的研究仍然很少,尽管这些模型的开发和采用日益增多。本研究考察了日语LLM在直接设置中响应刻板印象触发提示时的安全性。我们通过将301个社会群体术语(按年龄、性别和其他属性分类)与12个日语刻板印象诱导模板相结合,构建了3612个提示。分析了分别在日语、英语和汉语上训练的三个基础模型的响应。我们的研究结果表明,日语原生模型LLM-jp表现出最低的拒绝率,并且与其他模型相比,更有可能生成有害和负面的响应。此外,提示格式显着影响所有模型的输出,并且生成的响应包括对特定社会群体的夸大反应,这些反应因模型而异。这些发现强调了日语LLM中伦理安全机制的不足,并表明即使是高精度模型在处理日语提示时也可能产生有偏见的输出。我们提倡改进日语LLM中的安全机制和偏见缓解策略,为超越语言界限的AI伦理的持续讨论做出贡献。

🔬 方法详解

问题定义:现有大型语言模型(LLM)存在刻板印象和偏见,导致不安全行为。现有研究主要集中在英语模型,且多采用间接评估方法,存在注释者偏差等问题。针对日语LLM的直接评估研究较少,无法充分了解其在处理日语提示时的安全性问题。

核心思路:该研究采用直接评估方法,通过构建包含社会群体术语和刻板印象诱导模板的日语提示,直接考察日语LLM在刻板印象触发下的响应。通过分析模型的拒绝率、毒性和负面情绪等指标,评估其安全性。

技术框架:该研究主要包含以下几个阶段: 1. 提示构建:构建包含301个社会群体术语(按年龄、性别等分类)和12个刻板印象诱导模板的3612个日语提示。 2. 模型选择:选择三个基础模型,分别在日语、英语和汉语上训练。 3. 响应生成:使用构建的提示,让模型生成响应。 4. 响应分析:分析模型的拒绝率、毒性和负面情绪等指标,评估其安全性。

关键创新:该研究的关键创新在于: 1. 采用直接评估方法,克服了间接评估方法的局限性。 2. 专注于日语LLM,填补了非英语模型研究的空白。 3. 系统地构建了包含社会群体术语和刻板印象诱导模板的日语提示,为评估日语LLM的安全性提供了有效工具。

关键设计: 1. 社会群体术语选择:选择具有代表性的社会群体术语,涵盖年龄、性别等多个维度。 2. 刻板印象诱导模板设计:设计能够有效触发刻板印象的日语模板。 3. 评估指标选择:选择拒绝率、毒性和负面情绪等指标,全面评估模型的安全性。 4. 模型选择:选择在不同语言上训练的模型,进行跨语言比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,日语原生模型LLM-jp的拒绝率最低,更容易产生有害和负面响应。提示格式对所有模型的输出都有显著影响,且不同模型对特定社会群体的反应存在差异。这些结果突显了日语LLM在安全机制方面的不足。

🎯 应用场景

该研究成果可应用于提升日语大型语言模型的安全性,减少其在生成内容中存在的刻板印象和偏见。有助于开发更负责任、更符合伦理规范的日语AI系统,并为其他非英语语言模型的安全评估提供借鉴。

📄 摘要(原文)

In recent years, Large Language Models have attracted growing interest for their significant potential, though concerns have rapidly emerged regarding unsafe behaviors stemming from inherent stereotypes and biases. Most research on stereotypes in LLMs has primarily relied on indirect evaluation setups, in which models are prompted to select between pairs of sentences associated with particular social groups. Recently, direct evaluation methods have emerged, examining open-ended model responses to overcome limitations of previous approaches, such as annotator biases. Most existing studies have focused on English-centric LLMs, whereas research on non-English models, particularly Japanese, remains sparse, despite the growing development and adoption of these models. This study examines the safety of Japanese LLMs when responding to stereotype-triggering prompts in direct setups. We constructed 3,612 prompts by combining 301 social group terms, categorized by age, gender, and other attributes, with 12 stereotype-inducing templates in Japanese. Responses were analyzed from three foundational models trained respectively on Japanese, English, and Chinese language. Our findings reveal that LLM-jp, a Japanese native model, exhibits the lowest refusal rate and is more likely to generate toxic and negative responses compared to other models. Additionally, prompt format significantly influence the output of all models, and the generated responses include exaggerated reactions toward specific social groups, varying across models. These findings underscore the insufficient ethical safety mechanisms in Japanese LLMs and demonstrate that even high-accuracy models can produce biased outputs when processing Japanese-language prompts. We advocate for improving safety mechanisms and bias mitigation strategies in Japanese LLMs, contributing to ongoing discussions on AI ethics beyond linguistic boundaries.