Small Language Models are Equation Reasoners

📄 arXiv: 2409.12393v1 📥 PDF

作者: Bumjun Kim, Kunha Lee, Juyeon Kim, Sangam Lee

分类: cs.CL

发布日期: 2024-09-19

备注: 6 pages, 2 figures


💡 一句话要点

提出方程推理格式,显著提升小型语言模型算术能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 算术推理 方程推理 自然语言处理 知识蒸馏

📋 核心要点

  1. 小型语言模型在算术推理任务中表现不佳,主要原因是自然语言表达的多样性引入了歧义性。
  2. 论文提出使用仅方程格式进行推理,将自然语言描述的算术推理过程转化为统一的数学方程。
  3. 实验表明,仅方程格式能有效提升小型语言模型的算术推理能力,尤其是在极小模型上。

📝 摘要(中文)

Chain-of-Thought (CoT) 推理使得大型语言模型 (LLM) 在包括算术问题解决在内的各种 NLP 任务中取得了显著的性能。然而,由于容量有限以及缺乏与大型模型相关的涌现能力,这种成功并未推广到像 T5 这样的小型语言模型 (sLM)。最近通过知识蒸馏增强 sLM 的工作取得了一些改进,但仍然面临重大限制,特别是来自自然语言表达可变性的高歧义性和巨大的计算成本。在本文中,我们研究了 sLM 在算术推理任务中表现不佳的原因,并假设自然语言格式的可变性为这些较小的模型引入了高歧义性。基于这一假设,我们使用仅方程格式进行实验,这是一种推理格式,将先前以自然语言格式表达的算术推理统一为数学方程。实验结果表明,仅方程格式有效地提高了 sLM 的算术推理能力,尤其是在像 T5-Tiny 这样非常小的模型中。

🔬 方法详解

问题定义:论文旨在解决小型语言模型(sLM)在算术推理任务中表现不佳的问题。现有方法,如Chain-of-Thought,虽然在大模型上表现出色,但直接应用于sLM时效果不佳。主要痛点在于自然语言表达的多样性引入了过高的歧义性,使得容量有限的sLM难以有效学习和推理。

核心思路:论文的核心思路是减少自然语言带来的歧义性,通过将算术推理过程转化为统一的数学方程形式,即“仅方程格式”,来简化sLM的学习难度。这种方式避免了模型理解和生成复杂自然语言推理步骤的需要,直接聚焦于数学运算的逻辑关系。

技术框架:论文采用了一种直接的实验验证方法。首先,将算术推理任务的训练数据和测试数据转换为仅包含数学方程的形式。然后,使用这些数据训练和评估sLM,如T5-Tiny。通过比较使用自然语言格式和仅方程格式训练的模型的性能,来验证仅方程格式的有效性。

关键创新:论文的关键创新在于提出了“仅方程格式”这一概念,并将其应用于小型语言模型的算术推理任务。与以往侧重于知识蒸馏或模型结构改进的方法不同,该方法从数据格式入手,通过消除自然语言的歧义性来提升sLM的推理能力。

关键设计:论文的关键设计在于将算术推理问题转化为一系列的数学方程。例如,对于一个问题“A有5个苹果,B有3个苹果,总共有多少个苹果?”,传统的CoT方法会生成“A有5个苹果,B有3个苹果,所以总共有5+3=8个苹果”。而仅方程格式则直接表示为“5+3=8”。论文没有详细说明具体的网络结构或损失函数,而是侧重于数据格式的转换和实验验证。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,使用仅方程格式训练的sLM在算术推理任务上取得了显著的性能提升,尤其是在T5-Tiny等极小型模型上。具体性能数据未在摘要中给出,但强调了该方法对于提升sLM算术推理能力的有效性,并优于依赖自然语言推理的方法。

🎯 应用场景

该研究成果可应用于资源受限场景下的智能设备,例如嵌入式系统或移动设备,提升其在算术计算、数据分析等方面的能力。通过简化推理过程,降低了对模型大小和计算资源的需求,使得小型设备也能具备一定的推理能力。未来可扩展到其他需要精确推理的任务中。

📄 摘要(原文)

Chain-of-Thought (CoT) reasoning has enabled Large Language Model (LLM) to achieve remarkable performance in various NLP tasks, including arithmetic problem-solving. However, this success does not generalize to small language model (sLM) like T5, due to their limited capacity and absence of emergent abilities associated with larger models. Recent works to enhance sLM through knowledge distillation have yielded some improvements but still face significant limitations, particularly high ambiguity from the variability in natural language expressions and substantial computational costs. In this paper, we investigate why sLM perform poorly on arithmetic reasoning tasks and hypothesize that natural language format variability introduces high ambiguity for these smaller models. Based on this hypothesis, we conduct experiments with equation-only format, which is a reasoning format that unifies arithmetic reasoning previously expressed in natural language formats into mathematical equations. Experiment results demonstrate that equation-only format effectively boosts the arithmetic reasoning abilities of sLM, especially in very small models like T5-Tiny.