The Token Tax: Systematic Bias in Multilingual Tokenization

📄 arXiv: 2509.05486v1 📥 PDF

作者: Jessica M. Lundin, Ada Zhang, Nihal Karim, Hamza Louzan, Victor Wei, David Adelani, Cody Carroll

分类: cs.CL, cs.AI

发布日期: 2025-09-05


💡 一句话要点

揭示多语言分词偏差:Token Tax对低资源语言的影响与应对

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言分词 低资源语言 Token Tax 模型偏差 形态感知分词

📋 核心要点

  1. 现有分词器对形态复杂的低资源语言处理效率低,导致计算资源浪费和模型准确率下降。
  2. 论文核心思想是揭示分词效率与模型性能之间的关系,并量化分词低效带来的经济成本。
  3. 实验表明,token数量与模型准确率呈负相关,且推理模型在低资源语言上表现更优。

📝 摘要(中文)

本文研究了分词效率低下对形态复杂、低资源语言造成的结构性劣势,这种劣势体现在计算资源的浪费和准确率的降低。作者在AfriMMLU数据集(包含16种非洲语言的9000个多项选择题)上评估了10个大型语言模型(LLM),发现词语的平均token数(fertility)能够可靠地预测准确率。较高的fertility始终预测较低的准确率。此外,研究发现,推理模型(如DeepSeek, o1)在AfriMMLU数据集中始终优于非推理模型,缩小了先前几代模型中观察到的准确率差距。最后,将token膨胀转化为经济成本,token数量翻倍会导致训练成本和时间增加四倍,突显了许多语言面临的“token tax”。这些结果促使人们关注形态感知分词、公平定价以及用于公平自然语言处理(NLP)的多语言基准。

🔬 方法详解

问题定义:论文旨在解决多语言环境下,特别是对于形态复杂的低资源语言,现有分词器效率低下导致的“Token Tax”问题。现有分词器通常基于Byte Pair Encoding (BPE) 等方法,对高资源语言优化,但在低资源语言上会产生过多的token,增加了计算成本,降低了模型性能。

核心思路:论文的核心思路是量化分词效率(通过 fertility,即每个词的平均token数)与模型性能之间的关系,并揭示这种关系对低资源语言的影响。通过分析不同模型的表现,找出在低资源语言上表现更好的模型类型(如推理模型),从而为未来的模型设计和优化提供指导。

技术框架:论文的技术框架主要包括以下几个步骤:1) 在AfriMMLU数据集上评估10个大型语言模型;2) 计算每个语言的fertility;3) 分析fertility与模型准确率之间的相关性;4) 比较不同类型模型(推理模型 vs. 非推理模型)在低资源语言上的表现;5) 将token膨胀转化为经济成本,量化“Token Tax”。

关键创新:论文的关键创新在于:1) 首次系统性地量化了分词效率对低资源语言模型性能的影响,提出了“Token Tax”的概念;2) 揭示了推理模型在低资源语言上相对于非推理模型的优势;3) 使用AfriMMLU数据集,为评估多语言模型在非洲语言上的性能提供了一个基准。

关键设计:论文的关键设计包括:1) 使用AfriMMLU数据集,该数据集包含16种非洲语言,覆盖了不同的语言形态和资源水平;2) 使用fertility作为分词效率的指标,该指标简单易懂,能够有效地反映分词器在不同语言上的表现;3) 对比不同类型模型,包括推理模型(如DeepSeek, o1)和非推理模型,以揭示不同模型架构对低资源语言的适应性。

📊 实验亮点

实验结果表明,fertility与模型准确率之间存在显著的负相关关系,即较高的fertility通常对应较低的准确率。具体来说,token数量翻倍会导致训练成本和时间增加四倍。此外,推理模型(如DeepSeek, o1)在AfriMMLU数据集中始终优于非推理模型,缩小了先前几代模型中观察到的准确率差距。

🎯 应用场景

该研究成果可应用于改进多语言自然语言处理系统的设计,特别是在处理低资源语言时。通过采用形态感知分词方法,可以降低计算成本,提高模型性能。此外,该研究还强调了公平定价的重要性,鼓励云服务提供商针对不同语言的token数量进行差异化定价。未来,该研究可以推动多语言基准的开发,促进更公平的自然语言处理。

📄 摘要(原文)

Tokenization inefficiency imposes structural disadvantages on morphologically complex, low-resource languages, inflating compute resources and depressing accuracy. We evaluate 10 large language models (LLMs) on AfriMMLU (9,000 MCQA items; 5 subjects; 16 African languages) and show that fertility (tokens/word) reliably predicts accuracy. Higher fertility consistently predicts lower accuracy across all models and subjects. We further find that reasoning models (DeepSeek, o1) consistently outperform non-reasoning peers across high and low resource languages in the AfriMMLU dataset, narrowing accuracy gaps observed in prior generations. Finally, translating token inflation to economics, a doubling in tokens results in quadrupled training cost and time, underscoring the token tax faced by many languages. These results motivate morphologically aware tokenization, fair pricing, and multilingual benchmarks for equitable natural language processing (NLP).