Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks

📄 arXiv: 2409.13203v4 📥 PDF

作者: Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Jun Zhao

分类: cs.CL

发布日期: 2024-09-20 (更新: 2025-02-18)

备注: Accepted to AAAI 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出神经-符号协同蒸馏NesyCD,提升小模型在复杂推理任务上的能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 神经符号学习 复杂推理 小语言模型 大型语言模型 符号知识库 模型压缩

📋 核心要点

  1. 现有小语言模型在复杂推理任务中表现不佳,因为它们难以有效捕获任务所需的稀疏且专业的知识。
  2. NesyCD通过神经-符号协同蒸馏,将大型语言模型的通用能力和专门知识分别蒸馏到参数化神经网络和符号知识库中。
  3. 实验结果表明,NesyCD显著提升了小语言模型在复杂推理任务上的性能,甚至超越了更大的模型。

📝 摘要(中文)

本文提出了一种新颖的知识蒸馏方法,即神经-符号协同蒸馏(NesyCD),旨在提升大型语言模型(LLM,例如>13B)在复杂推理任务上的能力。我们认为,复杂推理任务对于小型语言模型(SLM,例如≤7B)来说是困难的,因为这些任务不仅需要一般的认知能力,还需要专门的知识,而这些知识通常是稀疏的,难以被基于神经网络的SLM有效捕获。因此,NesyCD以不同的方式蒸馏LLM中的通用能力和专门知识。一方面,我们仅将通用能力从教师LLM蒸馏到学生SLM的参数化神经网络中。另一方面,对于复杂推理任务的专门能力和不常见知识,我们采用符号知识蒸馏方法,以获取并将专门知识存储在符号知识库(KB)中。通过解耦通用能力和专门能力,所提出的NesyCD可以经济高效地实现卓越的性能,利用更小的模型并将参数化神经网络与符号KB相结合。此外,专门的KB具有良好的泛化能力,并且可以被人理解和操作。实验表明,NesyCD显着提高了SLM在领域内(BBH,GSM8K)和领域外(AGIEval,ARC)数据集上的复杂推理性能。值得注意的是,我们的方法使LLaMA3-8B和Qwen2-7B在性能上超过了GPT-3.5-turbo,并接近匹配LLaMA3-70B,尽管后者的参数多了九倍。

🔬 方法详解

问题定义:论文旨在解决小语言模型(SLM)在复杂推理任务中表现不佳的问题。现有方法难以让SLM有效获取和利用复杂推理所需的专业知识,导致性能瓶颈。SLM通常难以从大型语言模型(LLM)中直接蒸馏出所有能力,尤其是那些稀疏且专业的知识。

核心思路:论文的核心思路是将LLM的知识分为通用能力和专业知识,并采用不同的蒸馏方式。通用能力通过传统的神经知识蒸馏传递给SLM的神经网络,而专业知识则通过符号知识蒸馏提取并存储到符号知识库(KB)中。这种解耦的方式使得SLM能够更有效地学习和利用LLM的知识。

技术框架:NesyCD包含两个主要的蒸馏过程:神经蒸馏和符号蒸馏。神经蒸馏负责将LLM的通用能力传递给SLM的神经网络。符号蒸馏则首先从LLM的输出中提取专业知识,然后将这些知识存储到符号KB中。在推理阶段,SLM的神经网络和符号KB协同工作,共同完成复杂推理任务。

关键创新:NesyCD的关键创新在于将神经蒸馏和符号蒸馏相结合,从而能够更有效地利用LLM的知识。通过将专业知识存储到符号KB中,NesyCD不仅提高了SLM的性能,还使得这些知识更易于理解和操作。这种神经-符号结合的方式是与现有知识蒸馏方法的主要区别。

关键设计:符号知识蒸馏的具体实现方式未知,论文中没有详细描述如何从LLM的输出中提取专业知识并构建符号KB。损失函数的设计也未知,论文中没有明确说明神经蒸馏和符号蒸馏分别使用的损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NesyCD显著提高了SLM在BBH、GSM8K、AGIEval和ARC等数据集上的复杂推理性能。值得注意的是,使用NesyCD的LLaMA3-8B和Qwen2-7B在性能上超过了GPT-3.5-turbo,并接近匹配LLaMA3-70B,尽管后者的参数多了九倍。这表明NesyCD能够有效地提升SLM的性能,使其能够与更大的模型相媲美。

🎯 应用场景

NesyCD具有广泛的应用前景,可以用于构建更高效、更易于理解的小型智能系统。例如,可以将NesyCD应用于教育领域,帮助学生更好地学习和掌握知识;也可以应用于金融领域,提高风险评估和决策的准确性。此外,NesyCD还可以用于开发更智能的对话系统和智能助手。

📄 摘要(原文)

In this paper, we propose $\textbf{Ne}$ural-$\textbf{Sy}$mbolic $\textbf{C}$ollaborative $\textbf{D}$istillation ($\textbf{NesyCD}$), a novel knowledge distillation method for learning the complex reasoning abilities of Large Language Models (LLMs, e.g., \textgreater 13B). We argue that complex reasoning tasks are difficult for Small Language Models (SLMs, e.g., $\leq$ 7B), as these tasks demand not only general cognitive abilities but also specialized knowledge, which is often sparse and difficult for these neural-based SLMs to effectively capture. Therefore, NesyCD distills the general capabilities and specialized knowledge in LLMs using different manners. On the one hand, we distill only general abilities from teacher LLMs into the student SLMs of parameterized neural networks. On the other hand, for the specialized abilities and uncommon knowledge of a complex reasoning task, we employ a symbolic knowledge distillation approach to obtain and store the specialized knowledge within a symbolic knowledge base (KB). By decoupling general and specialized capabilities, the proposed NesyCD can achieve superior performance cost-effectively, utilizing smaller models and blending parameterized neural networks with symbolic KB. Moreover, the specialized KB generalizes well and is comprehended and manipulated by humans. Our experiments show that NesyCD significantly boosts SLMs' complex reasoning performance on in-domain (BBH, GSM8K) and out-of-domain (AGIEval, ARC) datasets. Notably, our approach enabled the LLaMA3-8B and Qwen2-7B to surpass GPT-3.5-turbo in performance and come close to matching LLaMA3-70B, despite the latter having nine times more parameters. Our code will be available at https://github.com/Xnhyacinth/NesyCD.