Frugal LMs Trained to Invoke Symbolic Solvers Achieve Parameter-Efficient Arithmetic Reasoning

📄 arXiv: 2312.05571v2 📥 PDF

作者: Subhabrata Dutta, Joykirat Singh, Ishan Pandey, Sunny Manchanda, Soumen Chakrabarti, Tanmoy Chakraborty

分类: cs.AI, cs.LG

发布日期: 2023-12-09 (更新: 2023-12-19)

备注: AAAI 2024


💡 一句话要点

提出SYRELM,利用小规模LM和符号求解器实现参数高效的算术推理

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 算术推理 小型语言模型 符号求解器 强化学习 形式化语言 参数高效 低秩适配器

📋 核心要点

  1. 大型语言模型在数学推理方面表现出色,但需要巨大的参数量,小型模型难以胜任。
  2. SYRELM将问题分解为形式化和求解两步,利用小型LM将自然语言问题转换为形式化语言,再由符号求解器求解。
  3. 实验表明,SYRELM在小型LM上取得了显著的性能提升,例如在SVAMP数据集上使用GPT-J 6B模型提升了30.65%。

📝 摘要(中文)

大型语言模型(LLM)展现出强大的零样本数学推理能力,尤其是在思维链(CoT)推理方面。然而,这种能力似乎仅限于参数规模庞大的LLM(超过500亿参数)。本研究提出,如果将算术应用题转化为形式化-求解任务,那么规模较小的、多步推理能力较弱的LM也能实现合理的算术推理。论文提出的SYRELM架构中,LM扮演翻译器的角色,将自然语言算术问题映射为形式化语言(FL)描述,然后由符号求解器评估FL表达式以获得答案。配备高效低秩适配器的小型冻结LM能够生成包含算术问题自然语言描述(例如,变量名及其用途、组合变量的形式表达式等)的FL表达式。采用策略梯度强化学习训练适配后的LM,并以不可微的符号求解器为指导。这与最近工具增强型LLM的发展方向截然不同,在工具增强型LLM中,外部工具(例如,计算器、Web搜索等)本质上与LM的学习阶段分离。SYRELM在基础LM上显示出巨大的改进(例如,使用GPT-J 6B模型在SVAMP数据集上的准确率绝对提升了30.65个百分点),同时保持了测试平台的易于诊断、解释和大多数研究人员可及性。

🔬 方法详解

问题定义:现有的大型语言模型在算术推理方面表现出色,但需要消耗大量的计算资源和参数。小型语言模型在多步推理方面能力不足,难以解决复杂的算术问题。因此,如何利用小型语言模型实现高效的算术推理是一个重要的研究问题。

核心思路:论文的核心思路是将算术推理问题分解为两个步骤:首先,使用语言模型将自然语言描述的算术问题转换为形式化语言(FL)表达式;然后,使用符号求解器对FL表达式进行求解,得到最终答案。这种方法将语言理解和数学计算分离,使得小型语言模型能够专注于语言到形式化的转换任务。

技术框架:SYRELM的整体架构包含两个主要模块:一个是小型冻结语言模型,配备低秩适配器,负责将自然语言问题转换为FL表达式;另一个是符号求解器,负责对FL表达式进行求解。训练过程中,使用策略梯度强化学习方法,以符号求解器的结果作为奖励信号,对语言模型的适配器进行训练。

关键创新:SYRELM的关键创新在于将语言模型和符号求解器紧密结合,通过强化学习的方式训练语言模型,使其能够生成符合符号求解器要求的FL表达式。这与传统的工具增强型LLM不同,后者通常将外部工具与语言模型的学习过程分离。

关键设计:论文采用GPT-J 6B作为基础语言模型,并使用低秩适配器进行参数高效的微调。强化学习过程中,使用策略梯度算法,奖励函数基于符号求解器的结果。具体来说,如果符号求解器能够正确求解FL表达式,则给予正向奖励;否则,给予负向奖励。此外,论文还设计了一种特殊的FL语言,用于描述算术问题。

📊 实验亮点

SYRELM在SVAMP数据集上取得了显著的性能提升,使用GPT-J 6B模型时,准确率绝对提升了30.65个百分点。这表明SYRELM能够有效地利用小型语言模型进行算术推理。此外,SYRELM的测试平台易于诊断和解释,方便研究人员进行进一步的研究和改进。该研究为参数高效的算术推理提供了一种新的思路。

🎯 应用场景

SYRELM具有广泛的应用前景,例如可以用于开发智能教育系统,帮助学生解决算术问题;也可以用于构建智能客服系统,自动回答用户提出的数学问题。此外,该方法还可以推广到其他需要符号推理的领域,例如程序合成、逻辑推理等。该研究有助于推动小型语言模型在实际应用中的发展,降低AI的使用门槛。

📄 摘要(原文)

Large Language Models (LLM) exhibit zero-shot mathematical reasoning capacity as a behavior emergent with scale, commonly manifesting as chain-of-thoughts (CoT) reasoning. However, multiple empirical findings suggest that this prowess is exclusive to LLMs with exorbitant sizes (beyond 50 billion parameters). Meanwhile, educational neuroscientists suggest that symbolic algebraic manipulation be introduced around the same time as arithmetic word problems to modularize language-to-formulation, symbolic manipulation of the formulation, and endgame arithmetic. In this paper, we start with the hypothesis that much smaller LMs, which are weak at multi-step reasoning, can achieve reasonable arithmetic reasoning if arithmetic word problems are posed as a formalize-then-solve task. In our architecture, which we call SYRELM, the LM serves the role of a translator to map natural language arithmetic questions into a formal language (FL) description. A symbolic solver then evaluates the FL expression to obtain the answer. A small frozen LM, equipped with an efficient low-rank adapter, is capable of generating FL expressions that incorporate natural language descriptions of the arithmetic problem (e.g., variable names and their purposes, formal expressions combining variables, etc.). We adopt policy-gradient reinforcement learning to train the adapted LM, informed by the non-differentiable symbolic solver. This marks a sharp departure from the recent development in tool-augmented LLMs, in which the external tools (e.g., calculator, Web search, etc.) are essentially detached from the learning phase of the LM. SYRELM shows massive improvements (e.g., +30.65 absolute point improvement in accuracy on the SVAMP dataset using GPT-J 6B model) over base LMs, while keeping our testbed easy to diagnose, interpret and within reach of most researchers.