Enhancing SLM via ChatGPT and Dataset Augmentation

📄 arXiv: 2409.12599v1 📥 PDF

作者: Tom Pieper, Mohamad Ballout, Ulf Krumnack, Gunther Heidemann, Kai-Uwe Kühnberger

分类: cs.CL

发布日期: 2024-09-19


💡 一句话要点

利用ChatGPT和数据增强提升小型语言模型在自然语言推理任务上的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言推理 小型语言模型 数据增强 ChatGPT 知识蒸馏

📋 核心要点

  1. 现有小型语言模型在自然语言推理任务中性能不足,且人工标注数据成本高昂,限制了其应用。
  2. 利用ChatGPT生成合成数据,通过知识蒸馏增强ANLI数据集,提升小型语言模型在推理任务上的性能。
  3. 实验表明,该方法显著提高了模型理解自然语言的能力,在ANLI数据集上的分类准确率提升了1.3%至2.3%。

📝 摘要(中文)

本文探讨了在自然语言推理(NLI)领域,通过ChatGPT-3.5-Turbo进行战略性数据集增强来提升小型语言模型(SLM)性能的方法。通过采用基于知识蒸馏的技术和合成数据集增强,旨在弥合大型语言模型(LLM)和小型语言模型之间的性能差距,同时避免大量的人工标注成本。该方法涉及两种形式的理由生成——信息提取和知情推理——以丰富ANLI数据集。然后,在这些增强的数据集上微调T5-Small,并针对已建立的基准评估其性能。研究结果表明,合成理由的加入显著提高了模型理解自然语言的能力,在ANLI数据集上的分类准确率分别提高了1.3%和2.3%,证明了利用LLM进行数据集增强的潜力。这种方法不仅增强了较小模型在复杂任务上的性能,还引入了一种经济高效的微调小型语言模型的方法。通过加深对知识蒸馏和微调策略的理解,这项工作有助于不断努力创建更强大和高效的NLP系统。

🔬 方法详解

问题定义:论文旨在解决小型语言模型(SLM)在自然语言推理(NLI)任务中性能不足的问题。现有方法依赖于大量人工标注数据,成本高昂且效率低下,限制了SLM的应用范围。

核心思路:论文的核心思路是利用大型语言模型(LLM),特别是ChatGPT,生成高质量的合成数据,作为数据增强手段,提升SLM的性能。通过知识蒸馏,将LLM的知识迁移到SLM,使其在NLI任务中表现更佳。这种方法旨在降低对人工标注数据的依赖,并提高SLM的效率和泛化能力。

技术框架:整体框架包括以下几个主要阶段:1) 使用ChatGPT生成合成的NLI数据,包括前提、假设和理由;2) 采用两种理由生成方式:信息提取和知情推理;3) 将生成的合成数据与原始ANLI数据集结合,形成增强数据集;4) 在增强数据集上微调T5-Small模型;5) 在ANLI基准数据集上评估微调后的T5-Small模型的性能。

关键创新:该论文的关键创新在于利用LLM(ChatGPT)自动生成高质量的NLI数据,并将其用于增强SLM的训练数据集。与传统的数据增强方法相比,这种方法能够更有效地提升SLM的推理能力,并且显著降低了人工标注的成本。此外,论文还探索了两种不同的理由生成策略,并分析了它们对模型性能的影响。

关键设计:论文使用了T5-Small作为SLM,并采用微调策略。ChatGPT被用于生成两种类型的理由:信息提取和知情推理。信息提取侧重于从上下文中提取相关信息作为理由,而知情推理则需要模型进行更深层次的推理才能生成理由。具体参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过ChatGPT生成合成数据进行增强后,T5-Small模型在ANLI数据集上的分类准确率分别提高了1.3%(信息提取)和2.3%(知情推理)。这些结果表明,利用LLM进行数据增强可以显著提升SLM在NLI任务上的性能,并且具有成本效益。

🎯 应用场景

该研究成果可应用于各种需要自然语言推理能力的场景,例如问答系统、文本蕴含识别、对话系统等。通过降低对人工标注数据的依赖,该方法可以促进小型语言模型在资源受限环境下的应用,并加速NLP技术的普及。未来,该方法有望扩展到其他NLP任务和领域。

📄 摘要(原文)

This paper explores the enhancement of small language models through strategic dataset augmentation via ChatGPT-3.5-Turbo, in the domain of Natural Language Inference (NLI). By employing knowledge distillation-based techniques and synthetic dataset augmentation, we aim to bridge the performance gap between large language models (LLMs) and small language models (SLMs) without the immense cost of human annotation. Our methods involve two forms of rationale generation--information extraction and informed reasoning--to enrich the ANLI dataset. We then fine-tune T5-Small on these augmented datasets, evaluating its performance against an established benchmark. Our findings reveal that the incorporation of synthetic rationales significantly improves the model's ability to comprehend natural language, leading to 1.3\% and 2.3\% higher classification accuracy, respectively, on the ANLI dataset, demonstrating the potential of leveraging LLMs for dataset augmentation. This approach not only enhances the performance of smaller models on complex tasks but also introduces a cost-effective method for fine-tuning smaller language models. By advancing our understanding of knowledge distillation and fine-tuning strategies, this work contributes to the ongoing effort to create more capable and efficient NLP systems.