Evaluation of Large Language Models: STEM education and Gender Stereotypes

作者: Smilla Due, Sneha Das, Marianne Andersen, Berta Plandolit López, Sniff Andersen Nexø, Line Clemmensen

分类: cs.CL, cs.AI

发布日期: 2024-06-14

💡 一句话要点

评估大型语言模型在STEM教育和性别刻板印象方面的偏差

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 性别偏见 STEM教育 职业建议 文化差异

📋 核心要点

大型语言模型在职业描述等方面存在性别偏见，尽管有所改进，但潜在的刻板印象仍需关注。
该研究通过提示LLM生成职业建议，对比不同性别名字下STEM与非STEM教育路径的比例，以此评估性别偏见。
实验结果表明，不同文化背景下LLM的性别偏见程度不同，英语环境下的STEM建议相对更多。

📝 摘要（中文）

大型语言模型（LLM）在聊天机器人、学习支持、代码辅助、创意生成和写作辅助等领域的应用日益广泛，对我们的生活产生着越来越大的影响。以往的研究表明，LLM在描述职业或形容男性与女性的形容词时存在语言偏差。虽然这些问题在更新的LLM版本中得到了一定程度的解决，至少通过了现有的测试，但模型中可能仍然存在偏差。重复使用带有性别刻板印象的语言可能会强化潜在的假设，因此进一步检查这些偏差非常重要。本文通过开放式的、贴近用户案例的实验设计和定量分析，研究了LLM中与教育选择相关的性别偏差。我们在四种不同的文化、语言和教育系统（英语/美国/英国、丹麦语/丹麦、加泰罗尼亚语/西班牙和印地语/印度）中，针对10至16岁的年龄段（对应于不同国家重要的教育过渡点）进行了研究。我们发现，当使用典型的女孩名字与男孩名字来提示ChatGPT提供建议的职业列表时，ChatGPT建议的STEM与非STEM教育路径的比例存在显著且巨大的差异。与英语环境相比，丹麦语、西班牙语和印度语环境中STEM建议通常较少。我们还发现建议的职业存在细微差异，我们对其进行了分类和报告。

🔬 方法详解

问题定义：该论文旨在评估大型语言模型在教育选择方面存在的性别偏见，特别是针对STEM（科学、技术、工程和数学）领域的刻板印象。现有方法可能无法充分揭示LLM在实际应用场景中的潜在偏见，尤其是在不同文化背景下。

核心思路：核心思路是通过模拟真实用户场景，即使用不同性别特征的名字作为提示词，让LLM生成职业建议，然后分析这些建议中STEM与非STEM领域的比例差异。这种方法能够更直接地反映LLM在教育选择方面的性别偏见。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择具有代表性的不同文化、语言和教育系统（英语、丹麦语、加泰罗尼亚语和印地语）；2) 选取不同性别特征的名字作为提示词；3) 使用ChatGPT等LLM生成职业建议列表；4) 对生成的职业建议进行分类，区分STEM和非STEM领域；5) 对不同性别和文化背景下的STEM与非STEM比例进行定量分析。

关键创新：该研究的关键创新在于其开放式的实验设计，更贴近真实用户场景，能够更有效地揭示LLM在教育选择方面的性别偏见。此外，该研究还考虑了不同文化背景的影响，使得结果更具普适性和参考价值。

关键设计：研究的关键设计包括：1) 选取具有代表性的不同文化背景，以评估文化差异对LLM性别偏见的影响；2) 使用常见的男孩和女孩名字作为提示词，以模拟真实用户场景；3) 对生成的职业建议进行细致的分类，区分STEM和非STEM领域，以便进行定量分析；4) 采用定量分析方法，统计不同性别和文化背景下的STEM与非STEM比例，以评估性别偏见程度。

🖼️ 关键图片

📊 实验亮点

研究发现，使用典型的女孩名字提示ChatGPT时，STEM教育路径的建议比例显著低于男孩名字，尤其是在丹麦语、西班牙语和印度语环境中。与英语环境相比，这些语言环境下的STEM建议更少，表明不同文化背景下LLM的性别偏见程度存在差异。

🎯 应用场景

该研究结果可用于改进大型语言模型，减少其在教育和职业建议方面的性别偏见。通过了解不同文化背景下的偏见差异，可以为开发更公平、更包容的AI系统提供指导。此外，该研究也提醒教育工作者和家长关注AI工具可能存在的偏见，并引导学生做出更明智的职业选择。

📄 摘要（原文）

Large Language Models (LLMs) have an increasing impact on our lives with use cases such as chatbots, study support, coding support, ideation, writing assistance, and more. Previous studies have revealed linguistic biases in pronouns used to describe professions or adjectives used to describe men vs women. These issues have to some degree been addressed in updated LLM versions, at least to pass existing tests. However, biases may still be present in the models, and repeated use of gender stereotypical language may reinforce the underlying assumptions and are therefore important to examine further. This paper investigates gender biases in LLMs in relation to educational choices through an open-ended, true to user-case experimental design and a quantitative analysis. We investigate the biases in the context of four different cultures, languages, and educational systems (English/US/UK, Danish/DK, Catalan/ES, and Hindi/IN) for ages ranging from 10 to 16 years, corresponding to important educational transition points in the different countries. We find that there are significant and large differences in the ratio of STEM to non-STEM suggested education paths provided by chatGPT when using typical girl vs boy names to prompt lists of suggested things to become. There are generally fewer STEM suggestions in the Danish, Spanish, and Indian context compared to the English. We also find subtle differences in the suggested professions, which we categorise and report.

Evaluation of Large Language Models: STEM education and Gender Stereotypes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理