Artificially Fluent: Swahili AI Performance Benchmarks Between English-Trained and Natively-Trained Datasets
作者: Sophie Jaffer, Simeon Sayer
分类: cs.CL, cs.CY
发布日期: 2025-09-03 (更新: 2025-09-28)
备注: 13 Pages, 3 Figures
💡 一句话要点
对比英语训练与斯瓦希里语原生训练,揭示语言模型跨语言性能差异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言模型 语言表征 跨语言迁移 斯瓦希里语 BERT模型
📋 核心要点
- 大型语言模型在多语言场景下表现不一,英语数据主导地位可能导致非英语使用者处于劣势。
- 通过对比英语训练和斯瓦希里语原生训练的BERT模型,评估翻译对模型性能的影响。
- 实验表明,原生斯瓦希里语训练模型错误率远低于翻译后英语模型,揭示语言表征差异。
📝 摘要(中文)
随着大型语言模型(LLMs)多语言能力的扩展,其在不同语言上的性能公平性问题日益突出。为了验证数据差异可能影响模型性能的假设,本研究比较了两个单语BERT模型:一个完全在斯瓦希里语数据上训练和测试,另一个在可比的英语新闻数据上训练和测试。为了模拟多语言LLM如何通过内部翻译和抽象处理非英语查询,我们将斯瓦希里语新闻数据翻译成英语,并使用英语训练的模型进行评估。该方法通过评估将斯瓦希里语输入翻译后在英语模型上评估,与完全在斯瓦希里语中训练和测试模型相比,性能更好还是更差,从而隔离了语言一致性与跨语言抽象的影响。结果表明,尽管翻译质量很高,但原生斯瓦希里语训练的模型表现优于斯瓦希里语-英语翻译模型,产生的错误减少了近四倍:分别为0.36%和1.47%。这一差距表明,仅靠翻译并不能弥合语言之间的表征差异,并且用一种语言训练的模型可能难以准确解释翻译后的输入,因为内部知识表征不完善,这表明母语训练对于可靠的结果仍然很重要。在教育和信息环境中,即使是很小的性能差距也可能加剧不平等。未来的研究应侧重于为代表性不足的语言开发更广泛的数据集,并重新关注多语言模型评估,确保全球人工智能部署对现有数字鸿沟的强化效应得以降低。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在处理不同语言时存在的性能差异问题,特别是英语主导的训练数据可能导致非英语语言模型性能下降。现有方法依赖于跨语言迁移或翻译,但忽略了语言本身固有的表征差异,导致模型在处理翻译后的非英语数据时表现不佳。
核心思路:论文的核心思路是通过对比原生语言训练的模型和翻译后英语训练的模型,来评估翻译过程对模型性能的影响。通过这种方式,可以隔离语言一致性与跨语言抽象的影响,从而揭示语言表征差异对模型性能的贡献。
技术框架:整体框架包括以下几个步骤:1) 收集斯瓦希里语新闻数据和可比的英语新闻数据;2) 使用斯瓦希里语数据训练一个原生斯瓦希里语BERT模型;3) 使用英语数据训练一个英语BERT模型;4) 将斯瓦希里语新闻数据翻译成英语;5) 使用英语BERT模型评估翻译后的斯瓦希里语数据;6) 比较两个模型的性能,分析语言表征差异的影响。
关键创新:论文的关键创新在于通过对比实验,量化了翻译过程对模型性能的影响,揭示了语言表征差异的重要性。这与以往侧重于跨语言迁移或翻译的方法不同,强调了原生语言训练的必要性。
关键设计:论文使用了BERT模型作为基础模型,并采用了标准的新闻数据作为训练和测试数据。关键的参数设置包括BERT模型的超参数,以及翻译过程中的翻译质量控制。损失函数采用标准的交叉熵损失函数。网络结构为标准的BERT结构。
📊 实验亮点
实验结果表明,原生斯瓦希里语训练的BERT模型错误率为0.36%,而翻译成英语后使用英语BERT模型评估的错误率为1.47%,前者性能提升近四倍。这一结果有力地证明了原生语言训练的重要性,以及翻译过程可能引入的误差。
🎯 应用场景
该研究成果可应用于提升多语言环境下人工智能系统的性能,尤其是在教育、信息服务等领域。通过重视小语种数据的训练,可以减少数字鸿沟,提高人工智能服务的公平性和可访问性。未来的研究可以进一步探索如何有效地利用小语种数据,提升多语言模型的性能。
📄 摘要(原文)
As large language models (LLMs) expand multilingual capabilities, questions remain about the equity of their performance across languages. While many communities stand to benefit from AI systems, the dominance of English in training data risks disadvantaging non-English speakers. To test the hypothesis that such data disparities may affect model performance, this study compares two monolingual BERT models: one trained and tested entirely on Swahili data, and another on comparable English news data. To simulate how multilingual LLMs process non-English queries through internal translation and abstraction, we translated the Swahili news data into English and evaluated it using the English-trained model. This approach tests the hypothesis by evaluating whether translating Swahili inputs for evaluation on an English model yields better or worse performance compared to training and testing a model entirely in Swahili, thus isolating the effect of language consistency versus cross-lingual abstraction. The results prove that, despite high-quality translation, the native Swahili-trained model performed better than the Swahili-to-English translated model, producing nearly four times fewer errors: 0.36% vs. 1.47% respectively. This gap suggests that translation alone does not bridge representational differences between languages and that models trained in one language may struggle to accurately interpret translated inputs due to imperfect internal knowledge representation, suggesting that native-language training remains important for reliable outcomes. In educational and informational contexts, even small performance gaps may compound inequality. Future research should focus on addressing broader dataset development for underrepresented languages and renewed attention to multilingual model evaluation, ensuring the reinforcing effect of global AI deployment on existing digital divides is reduced.