A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness

📄 arXiv: 2411.03350v2 📥 PDF

作者: Fali Wang, Zhiwei Zhang, Xianren Zhang, Zongyu Wu, Tzuhao Mo, Qiuhao Lu, Wanjing Wang, Rui Li, Junjie Xu, Xianfeng Tang, Qi He, Yao Ma, Ming Huang, Suhang Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-11-04 (更新: 2024-12-28)

备注: 78 pages, 32 figures, 14 tables


💡 一句话要点

综述小语言模型(SLM):技术、增强、应用、与LLM协作及可信赖性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小语言模型 模型压缩 知识蒸馏 边缘计算 领域知识 模型微调 可信赖AI

📋 核心要点

  1. 大型语言模型虽然强大,但在资源受限环境和特定领域应用中存在局限性,如高计算成本和隐私问题。
  2. 本文旨在全面综述小语言模型(SLM)的定义、获取、增强、应用以及与大型语言模型的协作方式。
  3. 论文提出了SLM的标准化定义,并对相关模型和方法进行了分类,为有效增强和利用SLM提供了通用框架。

📝 摘要(中文)

大型语言模型(LLM)在文本生成、问答和推理方面展现出强大的能力,促进了各种任务和领域的发展。然而,由于参数规模庞大和计算需求高,LLM(如PaLM 540B和Llama-3.1 405B)面临诸多限制,通常需要使用云API,这引发了隐私问题,限制了边缘设备上的实时应用,并增加了微调成本。此外,由于缺乏特定领域的知识,LLM在医疗保健和法律等专业领域表现不佳,需要专门的模型。因此,小语言模型(SLM)因其低推理延迟、成本效益、高效开发以及易于定制和适应而越来越受欢迎。这些模型特别适合资源受限的环境和领域知识获取,解决了LLM的挑战,并且非常适合需要本地化数据处理以保护隐私、最小化推理延迟以提高效率以及通过轻量级微调获取领域知识的应用。对SLM日益增长的需求推动了广泛的研究和开发。然而,目前仍然缺乏对SLM的定义、获取、应用、增强和可靠性等问题的全面调查,因此我们对这些主题进行了详细的调查。SLM的定义差异很大,因此为了标准化,我们建议根据SLM执行专门任务的能力和对资源受限环境的适用性来定义SLM,并根据涌现能力的最小规模和资源约束下可持续的最大规模来设置边界。对于其他方面,我们提供了相关模型/方法的分类,并为每个类别开发了通用框架,以有效地增强和利用SLM。

🔬 方法详解

问题定义:大型语言模型(LLM)虽然在通用任务上表现出色,但其庞大的参数量导致高昂的计算成本和部署难度,尤其是在资源受限的边缘设备上。此外,LLM在特定领域知识方面存在不足,需要针对性地进行优化。现有方法缺乏对小语言模型(SLM)的系统性研究,包括其定义、获取、增强和应用等方面。

核心思路:本文的核心思路是全面梳理和分析小语言模型(SLM)的相关技术,包括模型架构、训练方法、优化策略以及应用场景。通过对现有研究进行分类和总结,为SLM的未来发展提供指导。论文强调了SLM在资源受限环境和特定领域应用中的优势,并探讨了SLM与LLM协同工作的可能性。

技术框架:本文构建了一个关于SLM的综合框架,涵盖以下几个主要方面:1) SLM的定义和分类;2) SLM的获取方法,包括预训练、微调和知识蒸馏;3) SLM的增强技术,如模型压缩、量化和剪枝;4) SLM的应用场景,包括自然语言处理、计算机视觉和机器人等;5) SLM与LLM的协作方式,如知识迁移和模型融合;6) SLM的可信赖性,包括安全性、隐私性和公平性。

关键创新:本文的主要创新在于对SLM进行了全面的综述和分析,填补了该领域研究的空白。论文提出了SLM的标准化定义,并对相关模型和方法进行了系统性的分类,为研究人员提供了有价值的参考。此外,论文还探讨了SLM与LLM的协作方式,为未来的研究方向提供了新的思路。

关键设计:论文没有提出新的模型或算法,而是在现有研究的基础上进行了梳理和总结。关键设计在于对SLM的定义和分类,以及对相关技术和应用的系统性分析。论文对不同类型的SLM进行了比较,并分析了它们的优缺点,为研究人员选择合适的模型提供了指导。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

本文是一篇全面的综述,系统地整理了小语言模型(SLM)领域的研究进展。它定义了SLM,并对各种技术、增强方法、应用场景以及与大型语言模型的协作进行了分类。该综述为研究人员提供了一个有价值的资源,并为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于各种资源受限的场景,如移动设备、嵌入式系统和物联网设备。SLM可以用于构建轻量级的自然语言处理应用,如智能助手、机器翻译和文本摘要。此外,SLM还可以应用于特定领域,如医疗保健、金融和法律,提供定制化的服务。未来的研究可以进一步探索SLM与LLM的协作方式,实现更强大的智能应用。

📄 摘要(原文)

Large language models (LLMs) have demonstrated emergent abilities in text generation, question answering, and reasoning, facilitating various tasks and domains. Despite their proficiency in various tasks, LLMs like PaLM 540B and Llama-3.1 405B face limitations due to large parameter sizes and computational demands, often requiring cloud API use which raises privacy concerns, limits real-time applications on edge devices, and increases fine-tuning costs. Additionally, LLMs often underperform in specialized domains such as healthcare and law due to insufficient domain-specific knowledge, necessitating specialized models. Therefore, Small Language Models (SLMs) are increasingly favored for their low inference latency, cost-effectiveness, efficient development, and easy customization and adaptability. These models are particularly well-suited for resource-limited environments and domain knowledge acquisition, addressing LLMs' challenges and proving ideal for applications that require localized data handling for privacy, minimal inference latency for efficiency, and domain knowledge acquisition through lightweight fine-tuning. The rising demand for SLMs has spurred extensive research and development. However, a comprehensive survey investigating issues related to the definition, acquisition, application, enhancement, and reliability of SLM remains lacking, prompting us to conduct a detailed survey on these topics. The definition of SLMs varies widely, thus to standardize, we propose defining SLMs by their capability to perform specialized tasks and suitability for resource-constrained settings, setting boundaries based on the minimal size for emergent abilities and the maximum size sustainable under resource constraints. For other aspects, we provide a taxonomy of relevant models/methods and develop general frameworks for each category to enhance and utilize SLMs effectively.