TREX: Tokenizer Regression for Optimal Data Mixture
作者: Inho Won, Hangyeol Yoo, Minkyung Cho, Jungyeul Park, Hoyun Song, KyungTae Lim
分类: cs.CL, cs.AI
发布日期: 2026-01-20
备注: Accepted to EACL 2026. Long Paper. (19 languages studied: Chinese, Greek, Japanese, etc.)
💡 一句话要点
TREX:通过Tokenizer回归优化数据混合比例,提升多语言LLM分词器效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分词器优化 数据混合比例 大型语言模型 回归模型 多语言处理
📋 核心要点
- 现有方法在确定多语言LLM分词器的最佳数据混合比例时,依赖启发式或大规模搜索,效率低下且成本高昂。
- TREX通过训练小型代理分词器并学习数据混合比例与压缩性能之间的关系,预测最佳数据混合比例。
- 实验表明,使用TREX预测的混合比例训练的分词器,压缩效率相比LLaMA3和均匀分布提升高达12%。
📝 摘要(中文)
构建高效的多语言大型语言模型(LLM)分词器需要仔细控制特定语言的数据混合比例。虽然分词器的压缩性能对LLM训练和推理的效率至关重要,但现有方法依赖于启发式方法或代价高昂的大规模搜索来确定最佳语言比例。我们引入了Tokenizer Regression for Optimal Data MiXture (TREX),这是一个基于回归的框架,可以有效地预测分词器训练的最佳数据混合比例。TREX在随机混合的数据上训练小规模代理分词器,收集它们的压缩统计数据,并学习从数据混合比例预测压缩性能。这种学习到的模型可以在大规模分词器训练之前进行可扩展的混合比例搜索,从而缓解了多语言分词器设计中的准确性-成本权衡。使用TREX预测的混合比例训练的分词器在同分布和异分布的压缩效率方面均优于基于LLaMA3和均匀分布的混合比例,最高可达12%,证明了其强大的可扩展性、鲁棒性和实际有效性。
🔬 方法详解
问题定义:论文旨在解决多语言LLM分词器训练中,如何确定最佳数据混合比例的问题。现有方法,如启发式规则或大规模网格搜索,要么效果不佳,要么计算成本过高,难以在大规模场景下应用。这些方法无法有效平衡分词器的压缩效率和训练成本。
核心思路:TREX的核心思路是利用回归模型学习数据混合比例与分词器压缩性能之间的关系。通过在小规模代理分词器上进行实验,收集不同数据混合比例下的压缩统计数据,然后训练回归模型来预测大规模分词器在不同混合比例下的性能。这样可以在实际训练大规模分词器之前,快速评估和选择最佳的数据混合比例。
技术框架:TREX框架包含以下主要阶段:1) 数据混合比例采样:从数据混合比例空间中随机采样多个混合比例。2) 代理分词器训练:在每个采样到的混合比例下,训练一个小规模的代理分词器。3) 压缩性能评估:评估每个代理分词器在验证集上的压缩性能,例如平均字节数。4) 回归模型训练:使用数据混合比例作为输入,压缩性能作为输出,训练一个回归模型。5) 最佳混合比例搜索:使用训练好的回归模型,搜索最佳的数据混合比例。6) 大规模分词器训练:使用搜索到的最佳混合比例,训练大规模分词器。
关键创新:TREX的关键创新在于将数据混合比例优化问题转化为一个回归问题,并利用小规模代理分词器来降低实验成本。与传统的启发式方法或大规模搜索方法相比,TREX能够更高效地找到最佳的数据混合比例,从而提高分词器的压缩效率。
关键设计:回归模型可以选择多种模型,例如线性回归、神经网络等。论文中可能使用了特定的回归模型,并对其进行了优化。损失函数通常是预测压缩性能与实际压缩性能之间的均方误差。代理分词器的规模需要仔细选择,既要保证训练效率,又要能够反映大规模分词器的性能趋势。数据混合比例的采样策略也会影响回归模型的训练效果。
📊 实验亮点
实验结果表明,使用TREX预测的混合比例训练的分词器,在同分布和异分布的压缩效率方面均优于基于LLaMA3和均匀分布的混合比例,最高可达12%。这表明TREX能够有效地找到最佳的数据混合比例,并显著提高分词器的性能。
🎯 应用场景
TREX可应用于各种多语言大型语言模型的训练,尤其是在资源受限的情况下。通过优化数据混合比例,可以显著提高分词器的压缩效率,从而降低LLM的训练和推理成本,并提升模型性能。该方法还可以推广到其他需要数据混合比例优化的场景,例如多模态模型的训练。
📄 摘要(原文)
Building effective tokenizers for multilingual Large Language Models (LLMs) requires careful control over language-specific data mixtures. While a tokenizer's compression performance critically affects the efficiency of LLM training and inference, existing approaches rely on heuristics or costly large-scale searches to determine optimal language ratios. We introduce Tokenizer Regression for Optimal Data MiXture (TREX), a regression-based framework that efficiently predicts the optimal data mixture for tokenizer training. TREX trains small-scale proxy tokenizers on random mixtures, gathers their compression statistics, and learns to predict compression performance from data mixtures. This learned model enables scalable mixture search before large-scale tokenizer training, mitigating the accuracy-cost trade-off in multilingual tokenizer design. Tokenizers trained with TReX's predicted mixtures outperform mixtures based on LLaMA3 and uniform distributions by up to 12% in both inand out-of-distribution compression efficiency, demonstrating strong scalability, robustness, and practical effectiveness.