Knowledge Distillation in Automated Annotation: Supervised Text Classification with LLM-Generated Training Labels
作者: Nicholas Pangakis, Samuel Wolken
分类: cs.CL, cs.LG
发布日期: 2024-06-25
备注: In Proceedings of the Sixth Workshop on Natural Language Processing and Computational Social Science
💡 一句话要点
利用LLM生成标签进行知识蒸馏,提升监督文本分类效率与成本效益
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 大型语言模型 文本分类 监督学习 自动标注
📋 核心要点
- 人工标注数据成本高昂且耗时,限制了计算社会科学中监督文本分类器的应用。
- 利用大型语言模型(LLM)生成训练标签,通过知识蒸馏训练监督分类器,降低对人工标注的依赖。
- 实验表明,使用LLM生成标签微调的分类器性能与人工标注数据微调的分类器相当,且更高效经济。
📝 摘要(中文)
计算社会科学(CSS)从业者通常依赖人工标注数据来微调监督文本分类器。本文评估了研究人员使用生成式大型语言模型(LLM)提供的替代训练标签来增强或替代人工生成训练数据的潜力。我们介绍了一个推荐的工作流程,并通过复制14个分类任务并测量性能来测试这个LLM应用。我们采用了一个来自近期CSS高影响力期刊的英文文本分类数据集的新语料库。由于这些数据集存储在受密码保护的档案中,我们的分析不太容易受到污染问题的影响。对于每个任务,我们将使用GPT-4标签微调的监督分类器与使用人工标注微调的分类器以及使用少量样本上下文学习的GPT-4和Mistral-7B的标签进行比较。我们的研究结果表明,在LLM生成的标签上微调的监督分类模型与在人工标注的标签上微调的模型性能相当。使用LLM生成的标签微调模型可以成为构建监督文本分类器的一种快速、高效且经济有效的方法。
🔬 方法详解
问题定义:本文旨在解决计算社会科学领域中,依赖人工标注数据进行监督文本分类的成本高、效率低的问题。现有方法高度依赖人工标注,耗费大量时间和资源,并且可能存在标注偏差。
核心思路:核心思路是利用大型语言模型(LLM)的强大生成能力,自动生成文本分类任务的训练标签,然后使用这些LLM生成的标签来微调监督分类器。通过知识蒸馏的方式,将LLM的知识迁移到更小、更高效的监督模型中。
技术框架:整体流程包括以下几个阶段:1) 选择合适的文本分类数据集;2) 使用LLM(如GPT-4)为数据集中的文本生成标签;3) 使用LLM生成的标签训练监督分类器(如BERT、RoBERTa等);4) 评估训练后的分类器在测试集上的性能;5) 将LLM直接进行few-shot in-context learning作为基线进行比较。
关键创新:关键创新在于将LLM的生成能力应用于监督文本分类的训练数据生成,从而避免了对大量人工标注数据的依赖。此外,该研究还特别关注了数据集的“污染”问题,使用了密码保护的数据集,确保评估的可靠性。
关键设计:论文使用了GPT-4作为主要的LLM标签生成器,并与Mistral-7B进行了对比。监督分类器使用了常见的Transformer模型。评估指标包括准确率、精确率、召回率和F1值。没有特别提及损失函数或网络结构的特殊设计,主要关注的是LLM生成标签的质量和对最终分类器性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用GPT-4生成的标签微调的监督分类器,在14个不同的文本分类任务上,性能与使用人工标注数据微调的分类器相当。这表明LLM生成的标签可以作为人工标注数据的有效替代方案,从而显著降低标注成本和时间。
🎯 应用场景
该研究成果可广泛应用于计算社会科学、舆情分析、情感分析、主题分类等领域。通过降低对人工标注数据的依赖,可以加速文本分类模型的开发和部署,降低成本,并提高效率。未来,可以探索使用更小、更高效的LLM进行标签生成,进一步降低计算成本。
📄 摘要(原文)
Computational social science (CSS) practitioners often rely on human-labeled data to fine-tune supervised text classifiers. We assess the potential for researchers to augment or replace human-generated training data with surrogate training labels from generative large language models (LLMs). We introduce a recommended workflow and test this LLM application by replicating 14 classification tasks and measuring performance. We employ a novel corpus of English-language text classification data sets from recent CSS articles in high-impact journals. Because these data sets are stored in password-protected archives, our analyses are less prone to issues of contamination. For each task, we compare supervised classifiers fine-tuned using GPT-4 labels against classifiers fine-tuned with human annotations and against labels from GPT-4 and Mistral-7B with few-shot in-context learning. Our findings indicate that supervised classification models fine-tuned on LLM-generated labels perform comparably to models fine-tuned with labels from human annotators. Fine-tuning models using LLM-generated labels can be a fast, efficient and cost-effective method of building supervised text classifiers.