Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia

作者: Zhejian Zhou, Jiayu Wang, Dahua Lin, Kai Chen

分类: cs.CL

发布日期: 2024-09-25 (更新: 2024-09-27)

备注: EMNLP 2024 Findings

💡 一句话要点

研究数字系统对大语言模型的影响，发现十进制在训练数据效率上更优

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数字系统 Transformer 数据效率 数值计算

📋 核心要点

现有大语言模型在数字运算中存在精度问题，不同数字系统的token化方式影响模型性能。
研究不同数字系统（基数10、10^2、10^3）对Transformer模型的影响，分析其缩放行为。
实验表明，基数10在训练数据效率上优于基数10^2和10^3，并揭示了模型学习机制。

📝 摘要（中文）

大型语言模型（LLM）在数学推理方面表现出卓越的能力，但仍然难以准确执行数字运算，如加法和乘法。不同的LLM可以通过各种方式将数字标记化为tokens，这会影响数字运算的性能。目前有两种代表性的方法：1）标记化为1位数；2）标记化为1~3位数。这种差异大致相当于使用不同的数字系统（即以10为基数或以10^3为基数）。鉴于此，我们研究了基于Transformer的大型语言模型中不同数字系统的缩放行为。我们通过实验表明，在从头开始训练的设置下，在训练数据规模和模型大小方面，以10为基数的系统始终比以10^2或10^3为基数的系统具有更高的数据效率，而不同的数字系统具有非常相似的微调性能。我们将此归因于以10为基数的系统具有更高的token频率。此外，我们揭示了加法和乘法的外推行为模式。我们发现以100为基数和以1000为基数的系统在token级别的辨别和token级别的操作方面存在困难。我们还阐明了模型学习的机制。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在进行数字运算时，由于不同的数字系统表示方式（例如，十进制、百进制、千进制）导致的性能差异问题。现有方法没有充分考虑数字系统对模型训练效率和泛化能力的影响，导致模型在某些数字系统下表现不佳，尤其是在token级别的辨别和操作上存在困难。

核心思路：论文的核心思路是通过研究不同数字系统在大语言模型中的缩放行为，来理解数字系统如何影响模型的学习效率和泛化能力。通过比较不同基数的数字系统（10、10^2、10^3）在训练数据规模和模型大小变化时的性能表现，揭示最优的数字系统选择。这样设计的目的是为了找到一种更有效的数字表示方法，从而提高模型在数字运算任务上的准确性和效率。

技术框架：论文采用基于Transformer的大型语言模型（Pythia系列）作为实验平台。整体流程包括：1）从头开始训练不同大小的模型，使用不同的数字系统进行token化；2）在加法和乘法任务上评估模型的性能；3）分析不同数字系统下的token频率和模型学习到的机制；4）进行微调实验，比较不同数字系统在微调后的性能差异。

关键创新：论文的关键创新在于系统性地研究了数字系统对大语言模型的影响，并揭示了十进制在数据效率上的优势。此外，论文还深入分析了不同数字系统在token级别辨别和操作上的差异，以及模型学习到的机制。这些发现为优化大语言模型的数字运算能力提供了新的视角。

关键设计：论文的关键设计包括：1）使用Pythia系列模型，这是一个开源的、可复现的大语言模型；2）选择加法和乘法作为评估任务，因为它们是基本的数字运算；3）比较不同基数的数字系统（10、10^2、10^3），以研究数字系统的影响；4）分析token频率，以解释不同数字系统的数据效率差异；5）进行外推实验，以评估模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在从头开始训练的设置下，以10为基数的系统始终比以10^2或10^3为基数的系统具有更高的数据效率。此外，论文还揭示了加法和乘法的外推行为模式，并发现以100为基数和以1000为基数的系统在token级别的辨别和token级别的操作方面存在困难。

🎯 应用场景

该研究成果可应用于提升大语言模型在金融计算、科学计算等领域的数字运算能力。通过选择合适的数字系统，可以提高模型的训练效率和准确性，从而在实际应用中获得更好的性能。未来的研究可以进一步探索更复杂的数字系统和运算任务，以推动大语言模型在数值计算方面的应用。

📄 摘要（原文）

Though Large Language Models (LLMs) have shown remarkable abilities in mathematics reasoning, they are still struggling with performing numeric operations accurately, such as addition and multiplication. Numbers can be tokenized into tokens in various ways by different LLMs and affect the numeric operations performance. Currently, there are two representatives: 1) Tokenize into $1$-digit, and 2) Tokenize into $1\sim 3$ digit. The difference is roughly equivalent to using different numeral systems (namely base $10$ or base $10^{3}$). In light of this, we study the scaling behavior of different numeral systems in the context of transformer-based large language models. We empirically show that a base $10$ system is consistently more data-efficient than a base $10^{2}$ or $10^{3}$ system across training data scale, model sizes under from-scratch training settings, while different number systems have very similar fine-tuning performances. We attribute this to higher token frequencies of a base $10$ system. Additionally, we reveal extrapolation behavior patterns on addition and multiplication. We identify that base $100$ and base $1000$ systems struggle on token-level discernment and token-level operations. We also sheds light on the mechanism learnt by the models.

Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理