Emergent Abilities in Reduced-Scale Generative Language Models
作者: Sherin Muckatira, Vijeta Deshpande, Vladislav Lialin, Anna Rumshisky
分类: cs.CL, cs.LG
发布日期: 2024-04-02
备注: 16 pages, 4 figures. Accepted to NAACL 2024 Findings
💡 一句话要点
提出简化预训练数据以提升小型语言模型的零-shot学习能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 零-shot学习 简化数据 模型规模 幂律关系
📋 核心要点
- 现有大型语言模型在特定任务上表现优异,但其训练和部署成本高,限制了应用范围。
- 本研究通过简化预训练数据,探索小型模型在零-shot学习中的能力,验证模型规模与能力之间的关系。
- 实验结果显示,简化数据训练的小型模型在多任务上表现出色,性能接近大型模型,且存在幂律关系。
📝 摘要(中文)
大型语言模型能够在无需特定任务微调的情况下解决新任务,这种能力被称为上下文学习(ICL),通常在数十亿参数的大型模型中表现突出。本研究探讨了这种新兴能力是否仅与模型规模相关,或是否可以通过在简化数据上训练的小型模型来实现。我们简化了预训练数据,并训练了36个参数从100万到1.65亿不等的因果语言模型。结果表明,使用简化预训练数据的小型模型在多种任务上展现出增强的零-shot能力,其性能可与在无约束语言上预训练的六倍大模型相媲美。这表明,缩小语言规模可以使小型模型具备零-shot学习能力。此外,我们发现这些小型模型的评估损失与计算量、数据集规模和模型规模之间存在幂律关系。
🔬 方法详解
问题定义:本研究旨在探讨小型语言模型是否能够在简化数据上实现零-shot学习能力,现有方法主要依赖于大型模型,导致资源消耗高。
核心思路:通过简化预训练数据,训练参数较少的语言模型,验证其在多任务上的表现,探索模型规模与能力的关系。
技术框架:研究中训练了36个因果语言模型,参数从100万到1.65亿不等,使用简化的预训练数据进行训练,评估其在不同任务上的表现。
关键创新:本研究的创新在于展示了小型模型在简化数据上也能展现出零-shot学习能力,挑战了大型模型的主导地位。
关键设计:模型训练中采用了简化的预训练数据,评估损失与计算量、数据集规模和模型规模之间的幂律关系被明确提出,提供了新的视角。
📊 实验亮点
实验结果表明,使用简化预训练数据的小型模型在多项任务上实现了显著提升,其零-shot学习能力与六倍大的模型相当,验证了模型规模与能力之间的非线性关系,具有重要的理论和实践意义。
🎯 应用场景
该研究的成果可广泛应用于资源受限的环境中,例如移动设备或边缘计算场景,能够使小型语言模型在多种任务中具备较强的零-shot学习能力,降低了对大型模型的依赖,具有重要的实际价值和应用潜力。
📄 摘要(原文)
Large language models can solve new tasks without task-specific fine-tuning. This ability, also known as in-context learning (ICL), is considered an emergent ability and is primarily seen in large language models with billions of parameters. This study investigates if such emergent properties are strictly tied to model size or can be demonstrated by smaller models trained on reduced-scale data. To explore this, we simplify pre-training data and pre-train 36 causal language models with parameters varying from 1 million to 165 million parameters. We show that models trained on this simplified pre-training data demonstrate enhanced zero-shot capabilities across various tasks in simplified language, achieving performance comparable to that of pre-trained models six times larger on unrestricted language. This suggests that downscaling the language allows zero-shot learning capabilities to emerge in models with limited size. Additionally, we find that these smaller models pre-trained on simplified data demonstrate a power law relationship between the evaluation loss and the three scaling factors: compute, dataset size, and model size.