TokAlign++: Advancing Vocabulary Adaptation via Better Token Alignment

📄 arXiv: 2605.13429v1 📥 PDF

作者: Chong Li, Yingzhuo Deng, Wen Yang, Jiajun Zhang, Chengqing Zong

分类: cs.CL

发布日期: 2026-05-13

备注: Paper under review


💡 一句话要点

TokAlign++:通过改进Token对齐提升词汇适配性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 词汇适配 Token对齐 多语言模型 知识蒸馏 模型压缩

📋 核心要点

  1. 现有LLM的Token化效率低下,导致序列过长,影响训练和推理速度,词汇不匹配阻碍了Token级知识迁移。
  2. TokAlign++通过学习源词汇和目标词汇之间的双语Token对齐词典,实现更好的词汇适配。
  3. 实验表明,TokAlign++提高了多语言文本压缩率,保留了模型多语言能力,且Token级蒸馏效果显著。

📝 摘要(中文)

Token化是大型语言模型(LLM)文本处理的基础步骤。文本必须首先被Token化为Token ID,然后输入到LLM中。低效的Token化会导致长的Token ID序列,从而减慢LLM的训练和推理速度。LLM之间细粒度的知识迁移,如Token级别的蒸馏,也会受到词汇不匹配的阻碍。为了弥合这一差距,我们提出了一种名为TokAlign++的方法,通过学习更好的Token对齐词典来提高词汇适配性能。我们将源词汇和目标词汇视为两种不同的语言,并从单语Token表示中学习双语Token对齐词典。按照这个双语词典重新排列模型参数以适应新的词汇,并逐步进行微调以进行适配。在15种语言上的实验结果表明,我们的方法提高了多语言文本的压缩率,并保留了原始模型的大部分多语言能力。仅需1k步即可恢复原始模型的性能。在统一了原始模型之间的词汇后,Token级别的蒸馏仅使用235M个Token就显著提高了基础模型。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中由于Token化效率低下和词汇不匹配而导致的问题。现有方法在不同模型间进行知识迁移(如Token级蒸馏)时,由于词汇表差异,效果会大打折扣。此外,低效的Token化过程会增加序列长度,降低训练和推理速度。

核心思路:论文的核心思路是将源词汇和目标词汇视为两种不同的语言,然后学习它们之间的双语Token对齐词典。通过这个词典,可以将模型参数重新排列,以适应新的词汇表,从而实现更有效的词汇适配。这种方法借鉴了机器翻译的思想,将词汇适配问题转化为词汇对齐问题。

技术框架:TokAlign++方法主要包含以下几个阶段:1) Token表示学习:使用单语数据学习源词汇和目标词汇的Token表示。2) 双语Token对齐词典学习:基于Token表示,学习源词汇和目标词汇之间的对齐关系,构建双语Token对齐词典。3) 模型参数重排:根据学习到的对齐词典,重新排列模型参数,使其适应新的词汇表。4) 微调:对重排后的模型进行微调,进一步提升性能。

关键创新:TokAlign++的关键创新在于将词汇适配问题转化为词汇对齐问题,并利用双语词典学习的方法来解决。与传统的词汇适配方法相比,TokAlign++能够更有效地利用单语数据,学习更准确的Token对齐关系。此外,该方法能够显著提升Token级别蒸馏的效果。

关键设计:在Token表示学习阶段,可以使用预训练的词向量或Transformer模型来获得Token的表示。在双语Token对齐词典学习阶段,可以使用诸如GIZA++或fast_align等工具。模型参数重排阶段需要仔细设计参数映射规则,以确保模型结构的正确性。微调阶段可以使用标准的语言模型训练目标和优化器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TokAlign++在15种语言上提高了多语言文本的压缩率,并保留了原始模型的大部分多语言能力。仅需1k步微调即可恢复原始模型性能。在统一词汇后,Token级别蒸馏仅使用235M个Token就显著提高了基础模型性能,验证了该方法在知识迁移方面的有效性。

🎯 应用场景

TokAlign++可应用于跨语言模型迁移、模型压缩和加速等领域。通过统一不同模型的词汇表,可以促进知识共享和迁移,提高模型性能。该方法还可用于减小模型大小,降低计算成本,加速推理速度。未来,该技术有望应用于多语言机器翻译、跨语言信息检索等任务。

📄 摘要(原文)

Tokenization is a foundational step in the text process of Large Language Models (LLMs). Texts must be first tokenized into token IDs, which are then input to LLMs. Inefficient tokenization results in long token-ID sequences and will slow down the training and inference of LLMs. The fine-grained knowledge transfer between LLMs, like token-level distillation, is also impeded by the mismatch in vocabulary. To bridge this gap, we introduce a method named TokAlign++ to improve vocabulary adaptation performance by learning better token alignment lexicon. The source and target vocabularies are taken as two different languages, and the bilingual token alignment lexicon is learned from monolingual token representations. Model parameters are rearranged following this bilingual lexicon for new vocabulary, and progressively fine-tuned for adaptation. Experimental results on 15 languages show that our method boosts the multilingual text compression rates and preserves most of the multilingual ability of vanilla models. It costs as few as 1k steps to restore the performance of the vanilla model. After unifying vocabularies between vanilla models, token-level distillation remarkably improves the base model with only 235M tokens.