$\textit{SKIntern}$: Internalizing Symbolic Knowledge for Distilling Better CoT Capabilities into Small Language Models
作者: Huanxuan Liao, Shizhu He, Yupu Hao, Xiang Li, Yuanzhe Zhang, Jun Zhao, Kang Liu
分类: cs.CL
发布日期: 2024-09-20 (更新: 2024-12-14)
备注: Accepted to COLING 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出SKIntern以解决小型语言模型的推理能力不足问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 小型语言模型 推理能力 符号知识 渐进式微调 课程学习 计算效率 知识内化
📋 核心要点
- 现有的小型语言模型在推理能力和知识记忆方面存在不足,尤其是在处理外部知识时,计算开销显著增加。
- SKIntern通过渐进式微调,使小型语言模型能够逐步内化符号知识,优化推理过程,减少计算负担。
- 实验结果显示,SKIntern在多种任务上超越了现有基线,推理效率提高超过5%,计算成本降低至4倍。
📝 摘要(中文)
小型语言模型(SLMs)因其计算需求高和隐私问题而受到关注。已有研究通过从大型语言模型(LLMs)中蒸馏的思维链(CoT)数据来微调SLMs,以增强其推理能力。然而,现有的CoT蒸馏方法在引入外部符号知识时增加了计算开销并引入潜在噪声。本文提出了SKIntern,一种创新的方法,通过渐进式微调过程使SLMs逐步内化符号知识和少量示例,从而减少计算开销并加快推理过程。实验结果表明,SKIntern在多种SLMs上超越了最先进的基线,推理成本降低了最多4倍。
🔬 方法详解
问题定义:本文旨在解决小型语言模型在推理能力和知识记忆方面的不足,尤其是在引入外部符号知识时带来的计算开销和噪声问题。
核心思路:SKIntern的核心思路是通过渐进式微调,使小型语言模型能够逐步内化符号知识和少量示例,从而优化推理过程并降低计算成本。
技术框架:SKIntern的整体架构包括一个渐进式微调模块和一个基于预定义线性衰减调度的课程学习机制,逐步引导模型内化知识。
关键创新:SKIntern的创新在于其通过课程学习和线性衰减调度的结合,使小型语言模型能够高效内化知识,显著减少推理时的计算开销。
关键设计:在设计中,SKIntern采用了特定的损失函数和参数设置,以确保模型在内化知识时的稳定性和有效性,同时优化了网络结构以适应渐进式学习的需求。
🖼️ 关键图片
📊 实验亮点
SKIntern在多种小型语言模型上实现了超过5%的性能提升,同时在推理成本上降低了最多4倍,展现了其在处理内外部知识时的高效性和优越性。
🎯 应用场景
SKIntern的研究成果具有广泛的应用潜力,尤其是在需要高效推理的小型语言模型应用场景中,如智能助手、在线客服和教育领域。通过优化推理过程,该方法能够在资源受限的环境中提供更好的性能,具有重要的实际价值和未来影响。
📄 摘要(原文)
Small Language Models (SLMs) are attracting attention due to the high computational demands and privacy concerns of Large Language Models (LLMs). Some studies fine-tune SLMs using Chains of Thought (CoT) data distilled from LLMs, aiming to enhance their reasoning ability. Furthermore, Some CoT distillation methods introduce external symbolic knowledge into the generation process to improve the limited knowledge memory, reasoning ability and out-of-domain (OOD) generalization of SLMs. However, the introduction of symbolic knowledge increases computational overhead and introduces potential noise. In this paper, we introduce $\textit{SKIntern}$, an innovative approach that empowers SLMs to internalize symbolic knowledge and few-shot examples gradually through a progressive fine-tuning process, guided by a predefined linear decay schedule under curriculum learning. By efficiently internalizing knowledge, $\textit{SKIntern}$ reduces computational overhead and speeds up the reasoning process by focusing solely on the question during inference. It outperforms state-of-the-art baselines by over 5\%, while reducing inference costs (measured in FLOPs) by up to $4\times$ across a wide range of SLMs in both in-domain (ID) and out-of-domain (OOD) tasks. Our code will be available at \url{https://github.com/Xnhyacinth/SKIntern}.