Broken Words, Broken Performance: Effect of Tokenization on Performance of LLMs

📄 arXiv: 2512.21933v1 📥 PDF

作者: Sachin Pawar, Manoj Apte, Kshitij Jadhav, Girish Keshav Palshikar, Nitin Ramrakhiyani

分类: cs.CL

发布日期: 2025-12-26

备注: International Joint Conference on Natural Language Processing & Asia-Pacific Chapter of the Association for Computational Linguistics (IJCNLP-AACL 2025)


💡 一句话要点

研究表明:LLM分词方式影响性能,提出惩罚函数量化分词质量

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 分词 tokenization 自然语言处理 性能评估

📋 核心要点

  1. LLM分词与传统NLP不同,可能将自然词拆分为多个token,影响模型性能。
  2. 提出一套惩罚函数,量化特定LLM对文本的分词质量,评估分词的“好坏”。
  3. 实验证明,在多个NLP任务和不同LLM上,分词质量与模型性能显著相关。

📝 摘要(中文)

本文研究了大型语言模型(LLM)中分词方式对性能的影响。与传统NLP中将文本分割成“自然”词汇不同,LLM由于词汇量有限,可能将一个自然词拆分成多个token(例如,Mistral将“martial”拆分为“mart”和“ial”)。本文假设这种对自然词的拆分会对LLM在各种NLP任务上的性能产生负面影响。为了量化这种影响,作者提出了一组惩罚函数,用于计算特定LLM对给定文本的分词惩罚,以此衡量分词的“好坏”。实验结果表明,在多个NLP任务和不同的LLM上,该假设具有统计显著性。

🔬 方法详解

问题定义:论文旨在解决LLM中不合理的tokenization对模型性能的负面影响问题。现有LLM由于词表大小的限制,常常会将一个完整的、具有语义的“自然词”切分成多个子词(subword)token,导致模型在理解和处理文本时产生困难,降低了下游任务的性能。

核心思路:论文的核心思路是提出一种量化tokenization质量的方法,通过定义一系列的“惩罚函数”来评估特定LLM对给定文本的tokenization结果。这些惩罚函数旨在捕捉tokenization过程中对自然词的破坏程度,并将其转化为一个数值化的“惩罚”分数。分数越高,表示tokenization质量越差。

技术框架:论文的技术框架主要包含以下几个步骤:1) 选择一系列LLM和NLP任务;2) 对每个LLM,定义一组惩罚函数,用于评估其tokenization质量;3) 对每个NLP任务,使用不同的LLM进行实验,并记录其性能;4) 分析tokenization惩罚分数与模型性能之间的相关性,验证tokenization质量对模型性能的影响。

关键创新:论文的关键创新在于提出了一种量化LLM tokenization质量的方法。与以往研究主要关注tokenization算法本身不同,本文侧重于评估tokenization结果对下游任务的影响,并提供了一种可量化的评估指标。这种方法可以帮助研究人员更好地理解tokenization对LLM性能的影响,并为设计更好的tokenization算法提供指导。

关键设计:论文的关键设计在于惩罚函数的定义。具体的惩罚函数设计未知,但可以推测其可能考虑以下因素:1) 一个自然词被切分成token的数量;2) 切分后的token的频率;3) 切分后的token是否具有独立的语义信息等。这些因素共同决定了tokenization的惩罚分数,从而反映了tokenization的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了tokenization质量与LLM性能之间的统计显著性关系。具体性能数据未知,但研究表明,使用惩罚函数评估tokenization质量可以有效预测LLM在多个NLP任务上的表现。该研究为理解和优化LLM的tokenization策略提供了新的视角。

🎯 应用场景

该研究成果可应用于LLM的预训练和微调阶段,通过优化tokenization策略,提高模型在各种NLP任务上的性能。此外,该研究提出的tokenization质量评估方法,可以帮助研究人员更好地理解和改进LLM的tokenization算法,从而推动LLM技术的进一步发展。该方法也可能被用于评估不同LLM的tokenization策略的优劣。

📄 摘要(原文)

Tokenization is the first step in training any Large Language Model (LLM), where the text is split into a sequence of tokens as per the model's fixed vocabulary. This tokenization in LLMs is different from the traditional tokenization in NLP where the text is split into a sequence of "natural" words. In LLMs, a natural word may also be broken into multiple tokens due to limited vocabulary size of the LLMs (e.g., Mistral's tokenizer splits "martial" into "mart" and "ial"). In this paper, we hypothesize that such breaking of natural words negatively impacts LLM performance on various NLP tasks. To quantify this effect, we propose a set of penalty functions that compute a tokenization penalty for a given text for a specific LLM, indicating how "bad" the tokenization is. We establish statistical significance of our hypothesis on multiple NLP tasks for a set of different LLMs.