Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling
作者: Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
分类: cs.CL, cs.LG
发布日期: 2025-01-28 (更新: 2025-05-23)
备注: accepted by ICML2025
💡 一句话要点
提出Over-Tokenized Transformer,通过解耦输入输出词汇表提升语言模型性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 分词 词汇表 Transformer 语言建模
📋 核心要点
- 现有大型语言模型的分词方法对模型缩放和性能的影响尚未充分探索,存在提升空间。
- 论文提出Over-Tokenized Transformer,核心思想是解耦输入和输出词汇表,并扩大输入词汇表。
- 实验表明,更大的输入词汇量能持续提高模型性能,且使用大词汇表能以零成本达到双倍大小基线的性能。
📝 摘要(中文)
本文介绍了一种名为Over-Tokenized Transformer的新框架,该框架解耦了输入和输出词汇表,旨在提高语言建模性能。具体而言,该方法通过扩大输入词汇表来利用多字词单元(multi-gram tokens)。通过大量的实验,我们发现输入词汇量大小与训练损失之间存在对数线性关系,表明无论模型大小如何,更大的输入词汇量都能持续提高模型性能。使用大型输入词汇表,我们能够以零额外成本实现与两倍大小的基线模型相当的性能。我们的研究结果强调了分词在缩放定律中的重要性,并为分词器设计提供了实践见解,为更高效、更强大的大型语言模型铺平了道路。
🔬 方法详解
问题定义:现有大型语言模型(LLMs)的分词方法是影响模型性能的关键因素,但其对模型缩放的影响尚未被充分研究。传统的tokenization方法可能无法充分利用语言中的多字词单元信息,从而限制了模型的表达能力。因此,如何设计更有效的分词策略,以提升LLMs的性能,是一个重要的研究问题。
核心思路:论文的核心思路是解耦输入和输出词汇表,并着重扩大输入词汇表。通过使用更大的输入词汇表,模型可以更好地捕捉多字词单元的信息,从而提高语言建模的性能。这种方法旨在利用更细粒度的信息,而无需增加模型的大小或计算成本。
技术框架:Over-Tokenized Transformer框架主要包含两个部分:输入分词器和输出分词器。输入分词器负责将输入文本转换为token序列,其词汇表大小远大于输出分词器。输出分词器则负责将模型生成的token序列转换回文本。训练过程中,模型根据输入token预测输出token,并计算损失。整体流程与标准的Transformer模型类似,但关键在于输入分词器的设计。
关键创新:该论文的关键创新在于解耦输入和输出词汇表,并提出使用远大于输出词汇表的输入词汇表。这种方法允许模型在输入端捕捉更细粒度的信息,从而提高语言建模的性能。与传统的tokenization方法相比,Over-Tokenized Transformer能够更好地利用多字词单元的信息,而无需增加模型的大小或计算成本。
关键设计:论文中,输入词汇表的大小是一个关键参数。实验结果表明,输入词汇表的大小与训练损失之间存在对数线性关系,即更大的输入词汇表通常能带来更低的训练损失。具体的损失函数和网络结构与标准的Transformer模型相同。关键在于如何构建和使用这个更大的输入词汇表,例如可以使用BPE(Byte Pair Encoding)算法来构建词汇表,并调整BPE的合并次数来控制词汇表的大小。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Over-Tokenized Transformer能够显著提高语言建模的性能。具体而言,使用大型输入词汇表,该方法能够以零额外成本实现与两倍大小的基线模型相当的性能。研究还发现,输入词汇量大小与训练损失之间存在对数线性关系,表明更大的输入词汇量能够持续提高模型性能。
🎯 应用场景
该研究成果可应用于各种自然语言处理任务,例如机器翻译、文本生成、文本分类等。通过使用Over-Tokenized Transformer,可以提高这些任务的性能,尤其是在需要捕捉细粒度语言信息的场景下。此外,该研究为分词器设计提供了新的思路,有助于开发更高效、更强大的大型语言模型。
📄 摘要(原文)
Tokenization is a fundamental component of large language models (LLMs), yet its influence on model scaling and performance is not fully explored. In this paper, we introduce Over-Tokenized Transformers, a novel framework that decouples input and output vocabularies to improve language modeling performance. Specifically, our approach scales up input vocabularies to leverage multi-gram tokens. Through extensive experiments, we uncover a log-linear relationship between input vocabulary size and training loss, demonstrating that larger input vocabularies consistently enhance model performance, regardless of model size. Using a large input vocabulary, we achieve performance comparable to double-sized baselines with no additional cost. Our findings highlight the importance of tokenization in scaling laws and provide practical insight for tokenizer design, paving the way for more efficient and powerful LLMs.