Socially Responsible Data for Large Multilingual Language Models
作者: Andrew Smart, Ben Hutchinson, Lameck Mbangula Amugongo, Suzanne Dikker, Alex Zito, Amber Ebinama, Zara Wudiri, Ding Wang, Erin van Liemt, João Sedoc, Seyi Olojo, Stanley Uwakwe, Edem Wornyo, Sonja Schmer-Galunder, Jamila Smith-Loud
分类: cs.CL
发布日期: 2024-09-08
期刊: ACM conference on Equity and Access in Algorithms, Mechanisms, and Optimization, 2024
💡 一句话要点
为多语言大模型构建社会责任数据:关注伦理与公平
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言模型 低资源语言 社会责任 数据伦理 文化安全
📋 核心要点
- 现有大型语言模型主要依赖英文数据,导致在低资源语言上的表现不佳,忽略了社会伦理问题。
- 论文强调在收集低资源语言数据时,应关注社群同意、文化安全和数据主权等伦理问题,避免重蹈剥削覆辙。
- 论文通过定性研究、社区合作和参与式设计,提出了十二项建议,旨在构建更负责任的多语言数据。
📝 摘要(中文)
大型语言模型(LLM)在过去三年中规模和能力迅速增长,但其训练数据主要为英文文本。人们对多语言LLM的兴趣日益浓厚,各种努力致力于使模型适应全球北方以外社区的语言,其中包括许多在数字领域历史上代表性不足的语言,即“低资源语言”或“长尾语言”,LLM在这些语言上的表现通常较差。虽然将LLM的使用扩展到更多语言可能会带来许多潜在的好处,例如协助跨社区交流和语言保护,但必须非常小心,以确保对这些语言的数据收集不是掠夺性的,并且不会重蹈过去的剥削行为。从以前被殖民的人民、土著人民和非西方语言使用者那里收集数据会引发许多复杂的社会政治和伦理问题,例如围绕同意、文化安全和数据主权的问题。此外,语言的复杂性和文化细微差别通常会在LLM中丢失。本文建立在最近的学术研究和我们自己的工作基础上,概述了几个相关的社会、文化和伦理考量,以及通过定性研究、社区伙伴关系和参与式设计方法来缓解这些问题的潜在方法。我们为收集全球北方以外代表性不足的语言社区的语言数据时,提供了十二项建议。
🔬 方法详解
问题定义:论文旨在解决多语言大型语言模型在训练数据构建过程中,对低资源语言社区的社会伦理责任缺失问题。现有方法主要集中在扩大语言覆盖范围,而忽略了数据收集过程中的潜在剥削、文化不敏感以及对社区自主权的侵犯。这些痛点导致模型在低资源语言上的表现不佳,并可能加剧社会不平等。
核心思路:论文的核心思路是强调在构建多语言数据集时,必须将社会责任置于首位。这包括尊重语言社区的文化和价值观,确保数据收集过程的透明和可追溯性,以及建立与社区的长期合作关系。通过这种方式,可以避免重蹈殖民主义和剥削的覆辙,并构建更公平、更具代表性的语言模型。
技术框架:论文并没有提出一个具体的技术框架,而是提供了一系列指导原则和建议,以指导数据收集过程。这些建议涵盖了以下几个方面:1) 进行定性研究,了解语言社区的需求和价值观;2) 与社区建立伙伴关系,共同制定数据收集策略;3) 采用参与式设计方法,让社区成员参与到数据标注和模型评估过程中;4) 确保数据收集过程的透明和可追溯性;5) 尊重语言社区的数据主权。
关键创新:论文的关键创新在于其对社会责任的强调,以及将伦理考量融入到多语言数据构建过程中的方法。与以往的研究不同,该论文不仅仅关注模型的性能,更关注数据收集过程的公平性和可持续性。
关键设计:论文没有涉及具体的参数设置、损失函数或网络结构等技术细节。相反,它提供了一系列高层次的建议,旨在指导数据收集者在实践中做出更负责任的决策。这些建议包括:1) 获得知情同意;2) 保护文化敏感信息;3) 避免刻板印象和偏见;4) 确保数据的安全和隐私;5) 建立反馈机制,以便社区成员可以对数据收集过程提出意见和建议。
📊 实验亮点
该论文是一篇立场文件,没有提供具体的实验结果。其亮点在于提出了十二项关于在低资源语言数据收集时应考虑的社会、文化和伦理建议。这些建议为研究人员和开发者提供了一个框架,以确保多语言LLM的构建过程是负责任和可持续的。
🎯 应用场景
该研究成果可应用于多语言自然语言处理的各个领域,例如机器翻译、跨语言信息检索和多语言对话系统。通过遵循论文提出的建议,可以构建更公平、更具代表性的语言模型,从而更好地服务于全球不同语言社区的需求,并促进跨文化交流和理解。此外,该研究也为其他涉及敏感数据的机器学习项目提供了重要的伦理指导。
📄 摘要(原文)
Large Language Models (LLMs) have rapidly increased in size and apparent capabilities in the last three years, but their training data is largely English text. There is growing interest in multilingual LLMs, and various efforts are striving for models to accommodate languages of communities outside of the Global North, which include many languages that have been historically underrepresented in digital realms. These languages have been coined as "low resource languages" or "long-tail languages", and LLMs performance on these languages is generally poor. While expanding the use of LLMs to more languages may bring many potential benefits, such as assisting cross-community communication and language preservation, great care must be taken to ensure that data collection on these languages is not extractive and that it does not reproduce exploitative practices of the past. Collecting data from languages spoken by previously colonized people, indigenous people, and non-Western languages raises many complex sociopolitical and ethical questions, e.g., around consent, cultural safety, and data sovereignty. Furthermore, linguistic complexity and cultural nuances are often lost in LLMs. This position paper builds on recent scholarship, and our own work, and outlines several relevant social, cultural, and ethical considerations and potential ways to mitigate them through qualitative research, community partnerships, and participatory design approaches. We provide twelve recommendations for consideration when collecting language data on underrepresented language communities outside of the Global North.