Where is the signal in tokenization space?

作者: Renato Lui Geh, Honghua Zhang, Kareem Ahmed, Benjie Wang, Guy Van den Broeck

分类: cs.CL, cs.LG

发布日期: 2024-08-16 (更新: 2025-06-06)

备注: Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, EMNLP 2024

💡 一句话要点

探索tokenization空间中的信号：通过非规范token化提升LLM性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 tokenization 非规范token化 概率聚合 模型性能提升

📋 核心要点

现有LLM通常只考虑规范token序列的概率，忽略了同一文本存在多种token化方式的可能性。
论文核心思想是探索非规范token化空间，通过聚合不同token化方式的概率来提升LLM性能。
实验结果表明，聚合非规范token化的概率可以在多个LLM评估基准上取得显著的性能提升。

📝 摘要（中文）

大型语言模型（LLM）通常配备tokenizer，用于将文本确定性地编码为所谓的规范token序列，LLM据此赋予概率值。一个常见的假设是，一段文本的概率就是其规范token序列的概率。然而，字符串的token化并非唯一：例如，Llama2 tokenizer将Tokens编码为[Tok,ens]，但[Tok,en,s]也表示相同的文本。本文研究了非规范token化。我们证明，给定一个字符串，找到自回归LLM最可能的token化方式以及计算所有可能token化的边缘概率在计算上是困难的。然后，我们表明，在大多数情况下，边缘概率与规范概率几乎没有区别。令人惊讶的是，我们通过实验证明了tokenization空间中隐藏着大量的信号。值得注意的是，通过简单地聚合非规范token化的概率，我们在各种架构（包括transformers和状态空间模型）的LLM评估基准测试中取得了改进。

🔬 方法详解

问题定义：现有的大型语言模型在评估文本概率时，通常只考虑将文本转换为单个“规范”的token序列。然而，同一个文本字符串可以有多种不同的token化方式，而这些非规范的token化方式所蕴含的信息被忽略了。现有方法的痛点在于，它们假设规范token化序列的概率代表了文本的真实概率，而忽略了其他可能的token化方式，导致信息损失。

核心思路：论文的核心思路是探索tokenization空间中隐藏的信号，即通过考虑所有可能的token化方式，并聚合它们的概率，来更准确地评估文本的概率。这种思路基于一个假设：不同的token化方式可能捕捉到文本的不同方面的信息，将它们结合起来可以提供更全面的理解。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 证明了找到自回归LLM最可能的token化方式以及计算所有可能token化的边缘概率在计算上是困难的。2) 探索非规范token化空间，生成给定文本的所有可能的token化序列。3) 使用LLM计算每个token化序列的概率。4) 聚合所有token化序列的概率，得到文本的整体概率。5) 在各种LLM评估基准上评估聚合概率的性能。

关键创新：该论文的关键创新在于：1) 首次系统地研究了非规范token化对LLM性能的影响。2) 证明了计算最优token化方式的复杂性。3) 提出了通过聚合非规范token化概率来提升LLM性能的方法。与现有方法的本质区别在于，该方法不再局限于单一的规范token化序列，而是考虑了整个tokenization空间。

关键设计：论文的关键设计包括：1) 如何有效地生成所有可能的token化序列（具体实现细节未知）。2) 如何选择合适的LLM来计算每个token化序列的概率。3) 如何设计聚合函数来合并不同token化序列的概率（例如，简单的求和）。4) 如何在不同的LLM架构（transformers和状态空间模型）上验证该方法的有效性。具体的参数设置、损失函数、网络结构等技术细节在论文中可能没有详细描述，需要进一步查阅原文。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过简单地聚合非规范token化的概率，可以在各种LLM评估基准测试中取得显著的改进。具体而言，该方法在多种架构（包括transformers和状态空间模型）上都取得了性能提升，证明了其通用性和有效性。具体的性能提升幅度需要参考原文中的实验数据。

🎯 应用场景

该研究成果可应用于提升各种LLM在自然语言处理任务中的性能，例如文本分类、情感分析、机器翻译等。通过更准确地评估文本概率，可以提高LLM的鲁棒性和泛化能力。未来，该方法可以进一步扩展到其他领域，例如语音识别和图像处理，其中tokenization也扮演着重要角色。

📄 摘要（原文）

Large Language Models (LLMs) are typically shipped with tokenizers that deterministically encode text into so-called canonical token sequences, to which the LLMs assign probability values. One common assumption is that the probability of a piece of text is the probability of its canonical token sequence. However, the tokenization of a string is not unique: e.g., the Llama2 tokenizer encodes Tokens as [Tok,ens], but [Tok,en,s] also represents the same text. In this paper, we study non-canonical tokenizations. We prove that, given a string, it is computationally hard to find the most likely tokenization for an autoregressive LLM, as well as to compute the marginal probability over all possible tokenizations. We then show how the marginal is, in most cases, indistinguishable from the canonical probability. Surprisingly, we then empirically demonstrate the existence of a significant amount of signal hidden within tokenization space. Notably, by simply aggregating the probabilities of non-canonical tokenizations, we achieve improvements across a range of LLM evaluation benchmarks for a variety of architectures, including transformers and state space models.

Where is the signal in tokenization space?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理