BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization

作者: Sander Land, Catherine Arnett

分类: cs.CL

发布日期: 2025-05-30

备注: 9 pages, 2 figures. For associated code, see https://github.com/sanderland/script_bpe

💡 一句话要点

提出SCRIPT编码，增强BPE在多语言预分词中的鲁棒性，避免非西方文字的惩罚。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言分词 字节对编码 预分词 Unicode 脚本类别 自然语言处理 大型语言模型 鲁棒性

📋 核心要点

现有BPE分词器在多语言场景中对非西方文字存在不公平惩罚，且预分词依赖复杂正则表达式易出错。
SCRIPT编码利用Unicode脚本和类别属性，避免UTF-8转换，实现简单且尊重脚本边界的预分词。
实验表明，SCRIPT-BPE在保证压缩性能的同时，有效消除了对非拉丁文字语言的编码惩罚。

📝 摘要（中文）

字节对编码(BPE)分词器广泛应用于大型语言模型，但在多语言环境中面临挑战，包括对非西方文字的惩罚以及生成包含部分UTF-8序列的token。预分词通常依赖于复杂的正则表达式，这可能引入脆弱性和意想不到的边缘情况。我们提出SCRIPT（预分词中的脚本类别表示），一种新颖的编码方案，通过使用基于Unicode脚本和类别属性的初始token来绕过UTF-8字节转换。这种方法实现了一种简单的、基于规则的预分词策略，尊重脚本边界，为基于正则表达式的预分词策略提供了一种鲁棒的替代方案。我们还介绍并验证了一种约束BPE合并策略，该策略强制执行字符完整性，适用于SCRIPT-BPE和基于字节的BPE。我们的实验表明，SCRIPT-BPE在实现有竞争力的压缩的同时，消除了基于编码的对非拉丁文字语言的惩罚。

🔬 方法详解

问题定义：现有基于字节的BPE分词器在处理多语言文本时，会将不同语言的字符编码成UTF-8字节序列，导致非拉丁语系字符被分割成更多token，从而受到不公平的“惩罚”。同时，预分词阶段通常依赖复杂的正则表达式，容易引入错误和边界情况，影响分词的稳定性和准确性。

核心思路：论文的核心思路是避免直接使用UTF-8字节作为初始token，而是利用Unicode字符的脚本（Script）和类别（Category）属性来构建初始token集合。这样可以保证同一脚本的字符在预分词阶段不会被错误地分割，从而避免了对非拉丁语系字符的惩罚。同时，使用基于规则的简单预分词策略替代复杂的正则表达式，提高了预分词的鲁棒性。

技术框架：SCRIPT-BPE的整体流程如下：1. SCRIPT编码：将输入文本根据Unicode脚本和类别属性进行编码，生成初始token序列。2. 预分词：使用基于规则的简单策略，根据脚本边界对token序列进行分割。3. BPE合并：使用约束BPE合并策略，保证字符的完整性，生成最终的token集合。

关键创新：最重要的技术创新点在于SCRIPT编码，它利用Unicode字符的脚本和类别属性，避免了直接使用UTF-8字节作为初始token，从而消除了对非拉丁语系字符的编码惩罚。此外，约束BPE合并策略也是一个创新点，它保证了字符的完整性，避免了将一个字符分割成多个token。

关键设计：SCRIPT编码的关键设计在于如何选择合适的Unicode脚本和类别属性。论文中具体使用了哪些属性以及如何组合这些属性来生成初始token集合，这些细节决定了SCRIPT编码的有效性。此外，约束BPE合并策略的具体实现方式，例如如何定义字符完整性的约束条件，也是一个重要的技术细节。论文中可能还涉及一些超参数的设置，例如BPE合并的次数等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SCRIPT-BPE在实现与传统BPE相当的压缩性能的同时，显著降低了对非拉丁语系字符的编码惩罚。具体而言，在多语言数据集上，SCRIPT-BPE能够生成更平衡的token分布，避免了非拉丁语系字符被过度分割的问题。虽然论文中没有给出具体的性能提升数据，但强调了其在公平性方面的优势。

🎯 应用场景

该研究成果可广泛应用于多语言自然语言处理任务，例如机器翻译、跨语言信息检索、多语言文本分类等。通过消除对非拉丁语系字符的编码惩罚，可以提高模型在这些任务上的性能，并促进更公平的多语言AI发展。未来，该方法可以进一步扩展到处理更多语言和字符集，并与其他预训练技术相结合。

📄 摘要（原文）

Byte Pair Encoding (BPE) tokenizers, widely used in Large Language Models, face challenges in multilingual settings, including penalization of non-Western scripts and the creation of tokens with partial UTF-8 sequences. Pretokenization, often reliant on complex regular expressions, can also introduce fragility and unexpected edge cases. We propose SCRIPT (Script Category Representation in PreTokenization), a novel encoding scheme that bypasses UTF-8 byte conversion by using initial tokens based on Unicode script and category properties. This approach enables a simple, rule-based pretokenization strategy that respects script boundaries, offering a robust alternative to pretokenization strategies based on regular expressions. We also introduce and validate a constrained BPE merging strategy that enforces character integrity, applicable to both SCRIPT-BPE and byte-based BPE. Our experiments demonstrate that SCRIPT-BPE achieves competitive compression while eliminating encoding-based penalties for non-Latin-script languages.

BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理