From Data Scarcity to Data Care: Reimagining Language Technologies for Serbian and other Low-Resource Languages
作者: Smiljana Antonijevic Ubois
分类: cs.CL, cs.CY
发布日期: 2025-12-11
💡 一句话要点
提出数据关怀框架以解决低资源语言技术发展问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低资源语言 数据关怀 语言技术 文化偏见 自然语言处理 机器翻译 语音识别
📋 核心要点
- 现有语言技术在低资源语言(如塞尔维亚语)上表现不佳,存在文化和语言偏见,且缺乏对语言细微差别的关注。
- 提出数据关怀框架,强调在语料库设计和治理中融入偏见缓解,确保技术的文化适应性和可持续性。
- 通过访谈和案例分析,揭示了传统方法的局限性,并展示了数据关怀在构建包容性语言技术中的潜力。
📝 摘要(中文)
大型语言模型通常在主流语言(如英语)上训练,其对低资源语言的表现往往反映了源语言材料中的文化和语言偏见。以塞尔维亚语为案例,本研究探讨了在人工智能时代影响低资源语言技术发展的结构性、历史性和社会技术因素。通过对十位学者和从业者的半结构化访谈,研究追溯了塞尔维亚文本遗产的历史破坏及当代问题,这些问题导致了优先考虑功能性的简化工程方法,忽视了语言的细微差别。为应对这些挑战,研究提出了基于CARE原则(集体利益、控制权、责任和伦理)的数据关怀框架,将偏见缓解从事后技术修复转变为语料库设计、注释和治理的核心组成部分,旨在构建包容、可持续和文化根植的语言技术。
🔬 方法详解
问题定义:本研究旨在解决低资源语言技术发展中的文化偏见和功能优先的问题。现有方法往往忽视语言的细微差别,导致技术无法有效服务于特定文化背景的用户。
核心思路:提出数据关怀框架,强调在语料库设计和治理中融入CARE原则,确保技术开发过程中的文化适应性和伦理责任。
技术框架:该框架包括数据收集、语料库设计、注释和治理四个主要模块,旨在通过多方参与和反馈机制提升语言技术的包容性。
关键创新:数据关怀框架的最大创新在于将偏见缓解视为设计过程的核心,而非事后修复,改变了传统技术开发的思维方式。
关键设计:在框架中,强调了多样化的数据来源、参与式的注释过程以及对文化特性的敏感性,确保技术能够反映和服务于不同的文化背景。
📊 实验亮点
研究通过对十位专家的访谈,揭示了传统语言技术开发中的偏见和局限性,并展示了数据关怀框架在提升塞尔维亚语技术表现方面的潜力,强调了文化适应性的重要性。
🎯 应用场景
该研究的潜在应用领域包括低资源语言的自然语言处理、机器翻译和语音识别等。通过实施数据关怀框架,可以提升这些技术在特定文化和语言环境中的有效性和接受度,促进语言技术的公平性和可持续发展。
📄 摘要(原文)
Large language models are commonly trained on dominant languages like English, and their representation of low resource languages typically reflects cultural and linguistic biases present in the source language materials. Using the Serbian language as a case, this study examines the structural, historical, and sociotechnical factors shaping language technology development for low resource languages in the AI age. Drawing on semi structured interviews with ten scholars and practitioners, including linguists, digital humanists, and AI developers, it traces challenges rooted in historical destruction of Serbian textual heritage, intensified by contemporary issues that drive reductive, engineering first approaches prioritizing functionality over linguistic nuance. These include superficial transliteration, reliance on English-trained models, data bias, and dataset curation lacking cultural specificity. To address these challenges, the study proposes Data Care, a framework grounded in CARE principles (Collective Benefit, Authority to Control, Responsibility, and Ethics), that reframes bias mitigation from a post hoc technical fix to an integral component of corpus design, annotation, and governance, and positions Data Care as a replicable model for building inclusive, sustainable, and culturally grounded language technologies in contexts where traditional LLM development reproduces existing power imbalances and cultural blind spots.