\textit{Versteasch du mi?} Computational and Socio-Linguistic Perspectives on GenAI, LLMs, and Non-Standard Language

📄 arXiv: 2603.28213v1 📥 PDF

作者: Verena Platzgummer, John McCrae, Sina Ahmadi

分类: cs.CL

发布日期: 2026-03-30


💡 一句话要点

探讨GenAI和LLM对非标准语言的公平性,并提出技术和社会语言学视角的解决方案。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 非标准语言 社会语言学 公平性 数字鸿沟

📋 核心要点

  1. 现有大型语言模型对非标准语言支持不足,加剧了数字语言鸿沟,存在公平性问题。
  2. 论文从技术和社会语言学角度出发,探讨如何使LLM更好地处理非标准语言。
  3. 研究以南蒂罗尔方言和库尔德语为例,分析GenAI与语言变异和标准化的关系,并提出政策建议。

📝 摘要(中文)

大型语言模型和生成式人工智能的设计已被证明对使用较少的语言“不公平”,并加深了数字语言鸿沟。批判社会语言学研究也认为,这些技术不仅是由先前语言标准化的社会历史进程(通常基于欧洲民族主义和殖民项目)促成的,而且加剧了将语言视为“单一的、单语的、句法标准化的意义系统”的认识论。本文结合技术和语言政策的早期研究,并结合批判社会语言学和计算语言学的专业知识,对这些论点进行审视。我们以各自领域中两种不同的非标准语言变体——在意大利南蒂罗尔的非正式交流中广泛使用的南蒂罗尔方言以及库尔德语的各种变体——作为起点,对GenAI与语言变异和标准化之间的交叉点进行跨学科探索。我们从技术角度讨论如何使LLM能够处理非标准语言,以及这是否、何时或如何能够促进“民主和非殖民化的数字和机器学习策略”,这具有直接的政策影响。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在处理非标准语言时表现不佳,导致这些语言的使用者在享受技术红利方面处于劣势。这不仅加剧了数字鸿沟,也反映了LLM训练数据和设计中存在的偏见,即倾向于标准化的、主流的语言形式。现有方法未能充分考虑非标准语言的语言学特征和社会文化背景,导致模型性能下降。

核心思路:本文的核心思路是从技术和社会语言学两个角度出发,共同探讨如何提升LLM对非标准语言的处理能力。技术角度关注如何改进模型架构和训练方法,使其更好地适应非标准语言的特点;社会语言学角度则关注语言标准化背后的社会历史因素,以及技术干预可能带来的社会影响。通过跨学科的视角,旨在提出更全面、更负责任的解决方案。

技术框架:论文并未提出一个具体的、全新的技术框架,而是探讨了现有技术在处理非标准语言时可能面临的挑战,以及潜在的改进方向。可能的方向包括:1) 数据增强:利用非标准语言的数据进行预训练或微调;2) 模型适配:调整模型架构,使其更好地捕捉非标准语言的语言特征;3) 多语言模型:利用多语言模型的能力,将非标准语言与相关的主流语言联系起来。同时,强调了社会语言学分析的重要性,即在技术干预之前,需要充分了解非标准语言的社会文化背景和使用者的需求。

关键创新:本文的创新之处在于其跨学科的视角,将计算语言学和社会语言学相结合,共同探讨LLM对非标准语言的公平性问题。它强调了技术解决方案不能脱离社会文化背景,需要充分考虑语言标准化背后的权力关系和历史因素。这种跨学科的视角有助于我们更全面地理解技术对语言的影响,并提出更负责任的解决方案。

关键设计:由于论文主要关注理论探讨和问题分析,因此没有涉及具体的参数设置、损失函数或网络结构等技术细节。未来的研究可以基于本文的分析,探索更具体的技术方案,例如,设计专门针对非标准语言的预训练任务,或者利用对比学习的方法,使模型能够区分标准语言和非标准语言。

📊 实验亮点

本文的亮点在于其跨学科的视角,以及对LLM在处理非标准语言时可能存在的偏见的深刻分析。虽然没有提供具体的实验结果,但它为未来的研究指明了方向,即需要从技术和社会语言学两个角度出发,共同解决LLM对非标准语言的公平性问题。通过关注南蒂罗尔方言和库尔德语等具体案例,使抽象的理论分析更具现实意义。

🎯 应用场景

该研究成果可应用于开发更公平、更包容的语言技术,例如,改进语音识别、机器翻译和文本生成系统,使其更好地支持非标准语言。这有助于保护语言多样性,促进文化传承,并为非标准语言的使用者提供更好的数字服务。此外,该研究也对语言政策制定具有指导意义,可以帮助政府和企业制定更合理的语言技术发展战略。

📄 摘要(原文)

The design of Large Language Models and generative artificial intelligence has been shown to be "unfair" to less-spoken languages and to deepen the digital language divide. Critical sociolinguistic work has also argued that these technologies are not only made possible by prior socio-historical processes of linguistic standardisation, often grounded in European nationalist and colonial projects, but also exacerbate epistemologies of language as "monolithic, monolingual, syntactically standardized systems of meaning". In our paper, we draw on earlier work on the intersections of technology and language policy and bring our respective expertise in critical sociolinguistics and computational linguistics to bear on an interrogation of these arguments. We take two different complexes of non-standard linguistic varieties in our respective repertoires--South Tyrolean dialects, which are widely used in informal communication in South Tyrol, Italy, as well as varieties of Kurdish--as starting points to an interdisciplinary exploration of the intersections between GenAI and linguistic variation and standardisation. We discuss both how LLMs can be made to deal with nonstandard language from a technical perspective, and whether, when or how this can contribute to "democratic and decolonial digital and machine learning strategies", which has direct policy implications.