A Triadic Suffix Tokenization Scheme for Numerical Reasoning

作者: Olga Chetverina

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-13

备注: 8 pages, 1 figure. This is a theoretical proposal of a novel numbers tokenization for LLMs. The code is available on GitHub. Previous version archived at Zenodo: DOI 10.5281/zenodo.18999577

💡 一句话要点

提出三元后缀分词（TST）方案，解决LLM数值推理中数字分词不一致问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数值推理 大型语言模型 分词算法 量级表示 三元后缀分词

📋 核心要点

现有子词分词方法在处理数字时缺乏一致性，导致LLM难以捕捉数字的位置和量级信息，影响数值推理能力。
提出三元后缀分词（TST）方案，将数字划分为三位数组，并使用显式量级标记注释，从而保留数字的量级信息。
TST方案具有架构无关性，可作为预处理步骤集成到现有模型中，并具有良好的可扩展性，能够处理任意精度和范围的数字。

📝 摘要（中文）

标准子词分词方法对数字的分词方式不一致，导致大型语言模型（LLM）丢失位置和十进制结构，这是算术和科学推理中错误的主要驱动因素。我们引入了三元后缀分词（TST），这是一种确定性方案，将数字划分为三位数的组，并用显式量级标记注释每个组。关键是，该方案定义了整数部分的后缀和量级（千、百万、十亿等）之间的固定的一对一映射，以及用于小数深度的复制标记的并行系统（十分之一、千分之一、百万分之一等）。与依赖位置推断的方法不同，该方法提供了一致的梯度信号，应确保稳定的收敛。提出了两种实现变体：（1）基于词汇表的方法，该方法最多向现有词汇表添加10,000个固定token，覆盖33个数量级（$10^{-15}$到$10^{18}$）；（2）后缀标记方法，该方法使用一小组特殊token来动态表示量级。两种变体都保留了精确的数字，同时使量级关系在token级别上透明。该框架本质上是可扩展的，允许线性词汇表扩展以适应任意精度和范围。TST与架构无关，可以作为直接预处理步骤集成。实验验证推迟到未来的工作中。

🔬 方法详解

问题定义：现有的大型语言模型在进行数值推理时，由于标准子词分词方法对数字处理的不一致性，导致模型无法准确捕捉数字的位置信息和量级信息，从而影响了算术和科学推理的准确性。现有的方法依赖于模型自身学习数字的位置信息，缺乏明确的量级表示。

核心思路：论文的核心思路是将数字进行分段，并显式地标注每个分段的量级信息。具体来说，将数字分成三位一组的“三元组”，并为每个三元组添加一个后缀标记，该标记表示该三元组的量级（例如，千、百万、十亿等）。通过这种方式，模型可以直接从token中获取数字的量级信息，而无需进行复杂的推断。

技术框架：TST方案主要包含两个变体： 1. 基于词汇表的方法：预先定义一个包含数字三元组和量级标记的词汇表，将数字转换为词汇表中的token序列。 2. 后缀标记方法：使用一小组特殊的token来动态表示量级，在数字三元组后添加相应的量级标记。整个流程可以作为预处理步骤，在将数据输入LLM之前进行处理。

关键创新：TST方案的关键创新在于其显式地表示数字的量级信息，而不是依赖模型自身学习。通过将数字分成三元组并添加量级标记，TST方案使得模型能够更容易地理解数字的含义，从而提高了数值推理的准确性。与现有方法相比，TST方案更加直接和可解释。

关键设计：TST方案的关键设计包括： 1. 三元组划分：将数字分成三位一组，符合人类的阅读习惯，也方便进行量级标注。 2. 量级标记：为每个三元组添加量级标记，显式地表示数字的量级信息。整数部分和分数部分使用不同的量级标记系统。 3. 词汇表大小：基于词汇表的方法需要控制词汇表的大小，以避免增加模型的复杂度。论文中提到，最多添加10,000个固定token，覆盖33个数量级。

📊 实验亮点

论文尚未进行实验验证，因此没有具体的性能数据。未来的工作将集中于验证TST方案在实际应用中的效果，并与其他数值推理方法进行比较，以评估其性能提升。

🎯 应用场景

该研究成果可应用于各种需要进行数值推理的场景，例如科学计算、金融分析、工程设计等。通过提高LLM的数值推理能力，可以提升这些领域中自动化系统的性能和可靠性。未来，该方法有望被集成到各种LLM应用中，例如智能助手、搜索引擎等，从而提升用户体验。

📄 摘要（原文）

Standard subword tokenization methods fragment numbers inconsistently, causing large language models (LLMs) to lose positional and decimal structure - a primary driver of errors in arithmetic and scientific reasoning. We introduce Triadic Suffix Tokenization (TST), a deterministic scheme that partitions digits into three-digit triads and annotates each triad with an explicit magnitude marker. Critically, the scheme defines a fixed, one-to-one mapping between suffixes and orders of magnitude for the integer part (thousands, millions, billions, etc.) and a parallel system of replicated markers for fractional depth (tenths, thousandths, millionths, etc.). Unlike approaches that rely on positional inference, this method provides a consistent gradient signal, which should ensure stable convergence. Two implementation variants are proposed: (1) a vocabulary-based approach that adds at most 10,000 fixed tokens to an existing vocabulary, covering 33 orders of magnitude ($10^{-15}$ to $10^{18}$); and (2) a suffix-marker approach that uses a small set of special tokens to denote magnitude dynamically. Both variants preserve exact digits while making order-of-magnitude relationships transparent at the token level. The framework is inherently scalable, allowing for linear vocabulary expansion to accommodate arbitrary precision and range. TST is architecture-agnostic and can be integrated as a drop-in preprocessing step. Experimental validation is deferred to future work.

A Triadic Suffix Tokenization Scheme for Numerical Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理