LokiLM: Technical Report
作者: Justin Kiefel, Shrey Shah
分类: cs.CL
发布日期: 2024-07-10
💡 一句话要点
LokiLM:一种基于知识蒸馏的14亿参数语言模型,在自然语言推理任务上表现出色。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 知识蒸馏 自然语言推理 小参数模型 Transformer模型
📋 核心要点
- 现有小参数语言模型在复杂推理任务中性能不足,难以达到大型模型的水平。
- LokiLM采用多教师知识蒸馏,利用高质量数据训练,提升小模型的推理能力。
- 实验表明,LokiLM在小参数模型中取得了领先的推理性能,但仍存在幻觉问题。
📝 摘要(中文)
本文介绍了LokiLM,一个拥有14亿参数的大型语言模型,它在5000亿tokens上进行了训练。我们的模型在自然语言推理任务中表现出色,并在参数小于等于15亿的模型中实现了最先进的性能。LokiLM使用多教师知识蒸馏和高质量的训练数据进行训练,以达到与在更多tokens上训练的更大模型相媲美的基准测试结果。我们通过引入避免基准污染和过拟合的步骤来支持这些发现。尽管LokiLM表现出良好的性能,但它表现出令人担忧的幻觉现象,并在TruthfulQA基准测试中得分较低,因此我们不公开发布该模型。
🔬 方法详解
问题定义:现有的小型语言模型在自然语言推理任务中表现不佳,难以达到大型模型的性能水平。主要痛点在于模型容量有限,难以学习到足够的知识和推理能力。
核心思路:LokiLM的核心思路是利用知识蒸馏技术,将大型教师模型的知识迁移到小型学生模型LokiLM中。通过高质量的训练数据和精心设计的训练策略,使LokiLM在参数量较小的情况下也能获得较强的推理能力。
技术框架:LokiLM的训练框架主要包括以下几个阶段:1) 数据准备:收集和清洗高质量的训练数据。2) 教师模型选择:选择多个性能优异的大型语言模型作为教师模型。3) 知识蒸馏:使用教师模型的输出作为指导,训练学生模型LokiLM。4) 模型评估:在多个基准测试上评估LokiLM的性能。
关键创新:LokiLM的关键创新在于采用了多教师知识蒸馏策略,并结合高质量的训练数据,有效提升了小模型的推理能力。此外,论文还关注了基准污染和过拟合问题,并采取了相应的措施进行避免。
关键设计:LokiLM是一个14亿参数的Transformer模型。训练过程中,使用了交叉熵损失函数和知识蒸馏损失函数。为了避免基准污染,作者在训练前对训练数据进行了清洗,并监控模型在验证集上的性能,以防止过拟合。
🖼️ 关键图片
📊 实验亮点
LokiLM在自然语言推理任务中取得了state-of-the-art的性能,在参数小于等于15亿的模型中表现最佳。虽然具体性能数据未给出,但强调了其与在更多tokens上训练的更大模型具有竞争力。然而,该模型在TruthfulQA基准测试中表现不佳,存在幻觉问题。
🎯 应用场景
LokiLM的潜在应用领域包括智能助手、文本摘要、机器翻译等。该研究的实际价值在于提供了一种有效训练小参数语言模型的方法,使其能够在资源受限的环境中部署。未来,可以进一步研究如何减少LokiLM的幻觉问题,并将其应用于更广泛的自然语言处理任务。
📄 摘要(原文)
In this work, we introduce LokiLM, a 1.4B parameter large language model trained on 500B tokens. Our model performs strongly in natural language reasoning tasks and achieves state-of-the-art performance among models with 1.5B parameters or less. LokiLM is trained using multi-teacher knowledge distillation and high-quality training data to achieve benchmark results competitive with larger models trained on significantly more tokens. We support these findings by introducing steps to avoid benchmark contamination and overfitting throughout our development process. Despite its promising performance, LokiLM exhibits a concerning amount of hallucinations and scores poorly on the TruthfulQA benchmark, so we do not release the model publicly.