Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation
作者: Mir Tafseer Nayeem, Sawsan Alqahtani, Md Tahmid Rahman Laskar, Tasnim Mohiuddin, M Saiful Bari
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-10-11 (更新: 2025-10-26)
备注: NeurIPS 2025 Workshop
💡 一句话要点
提出STRR指标,用于评估多语言分词器的跨语言公平性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言分词 分词器评估 公平性 单token保留率 大型语言模型
📋 核心要点
- 现有分词评估指标fertility无法有效衡量不同语言和领域之间的词汇分配公平性。
- 提出单token保留率(STRR)指标,通过衡量单词被保留为单个token的比例来评估分词器的公平性。
- 实验结果表明STRR能有效揭示不同分词器对不同语言的偏好,为设计更公平的分词器提供指导。
📝 摘要(中文)
分词是大型语言模型(LLM)中至关重要但评估不足的步骤。标准指标“fertility”(每个单词的平均token数)虽然能捕捉压缩效率,但掩盖了词汇表在不同语言和领域之间的分配情况。本文分析了七种语言和两个领域中六种广泛使用的分词器,发现英语的fertility稳定,中文的fertility较高,且领域敏感性较低。为了解决fertility的盲点,本文提出了单token保留率(STRR),用于衡量作为单个token保留的单词比例。STRR揭示了对英语的系统性优先排序、对中文的强大支持以及印地语的分裂,从而提供了跨语言公平性的可解释视图。结果表明,STRR补充了fertility,并为设计更公平的多语言分词器提供了实践指导。
🔬 方法详解
问题定义:论文旨在解决大型语言模型中分词器在多语言场景下的公平性问题。现有的评估指标,如fertility,主要关注分词的压缩效率,而忽略了不同语言和领域在词汇表分配上的差异。这种差异可能导致某些语言在模型中得到不成比例的重视,从而影响模型的公平性和性能。
核心思路:论文的核心思路是提出一个新的评估指标——单token保留率(STRR),该指标衡量的是单词被分词器保留为单个token的比例。STRR越高,意味着该语言的单词越容易被直接映射到词汇表中,从而减少了分词带来的信息损失和计算开销。通过分析不同语言的STRR,可以揭示分词器对不同语言的偏好和公平性。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择六种广泛使用的分词器(具体名称未知);2) 选择七种语言和两个领域(具体语言和领域未知);3) 使用这些分词器对不同语言和领域的文本进行分词;4) 计算每个语言和领域的fertility和STRR;5) 分析STRR的结果,揭示分词器对不同语言的偏好和公平性。
关键创新:论文的关键创新在于提出了STRR指标,该指标能够有效补充现有的fertility指标,从而更全面地评估多语言分词器的性能。与fertility相比,STRR更关注单词的完整性,能够更好地反映分词器对不同语言的公平性。
关键设计:论文的关键设计在于STRR的计算方法。STRR被定义为被分词器保留为单个token的单词数量与总单词数量的比率。具体的计算公式未知,但可以推断,需要统计每个单词被分词后得到的token数量,然后计算STRR。
🖼️ 关键图片
📊 实验亮点
实验结果表明,英语的fertility稳定,中文的fertility较高,且领域敏感性较低。STRR揭示了分词器对英语的系统性优先排序、对中文的强大支持以及印地语的分裂。STRR指标能够有效补充fertility指标,为设计更公平的多语言分词器提供了实践指导。
🎯 应用场景
该研究成果可应用于大型语言模型的设计和优化,特别是在多语言场景下。通过使用STRR指标评估和改进分词器,可以提高模型的跨语言公平性,从而提升模型在不同语言上的性能和用户体验。此外,该研究还可以为开发更公平、更高效的多语言自然语言处理系统提供指导。
📄 摘要(原文)
Tokenization is a crucial but under-evaluated step in large language models (LLMs). The standard metric, fertility (the average number of tokens per word), captures compression efficiency but obscures how vocabularies are allocated across languages and domains. We analyze six widely used tokenizers across seven languages and two domains, finding stable fertility for English, high fertility for Chinese, and little domain sensitivity. To address fertility's blind spots, we propose the Single Token Retention Rate (STRR), which measures the proportion of words preserved as single tokens. STRR reveals systematic prioritization of English, strong support for Chinese, and fragmentation in Hindi, offering an interpretable view of cross-lingual fairness. Our results show that STRR complements fertility and provides practical guidance for designing more equitable multilingual tokenizers.