LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

📄 arXiv: 2411.19638v2 📥 PDF

作者: Taja Kuzman, Nikola Ljubešić

分类: cs.CL

发布日期: 2024-11-29 (更新: 2025-11-10)

备注: This work has been accepted and published in the IEEE Access journal. This arXiv version is retained for archival purposes. Readers should use and cite the IEEE Access Version available at https://ieeexplore.ieee.org/document/10900365

期刊: IEEE Access 2025

DOI: 10.1109/ACCESS.2025.3544814


💡 一句话要点

提出基于LLM的Teacher-Student框架,无需人工标注数据即可实现多语种新闻主题分类。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 新闻主题分类 大型语言模型 Teacher-Student框架 零样本学习 多语种 自动标注 知识蒸馏

📋 核心要点

  1. 现有新闻主题分类方法依赖大量人工标注数据,成本高昂且难以扩展到多语种场景。
  2. 利用LLM的零样本能力,构建Teacher-Student框架,自动标注多语种数据,训练高效的学生模型。
  3. 实验表明,学生模型在多种语言上取得了与教师模型相当的性能,并具备良好的跨语种泛化能力。

📝 摘要(中文)

为了应对在线新闻报道数量不断增长的挑战,本文提出了一种基于大型语言模型(LLM)的Teacher-Student框架,用于开发无需人工数据标注的、规模适中的多语种新闻主题分类模型。该框架采用生成式预训练Transformer(GPT)模型作为教师模型,通过自动标注斯洛文尼亚语、克罗地亚语、希腊语和加泰罗尼亚语的20,000篇新闻文章,构建新闻主题训练数据集。文章被分类为国际新闻电信委员会(IPTC)媒体主题模式中的17个主要类别。教师模型在所有四种语言中都表现出很高的零样本性能,其与人工标注者的协议程度与人工标注者之间的协议程度相当。为了缓解每日处理数百万文本所需的计算限制,在GPT标注的数据集上对较小的类BERT学生模型进行微调。这些学生模型取得了与教师模型相当的高性能。此外,我们还探讨了训练数据大小对学生模型性能的影响,并研究了它们的单语、多语和零样本跨语能力。研究结果表明,学生模型可以通过相对较少的训练实例获得高性能,并表现出强大的零样本跨语能力。最后,我们发布了性能最佳的新闻主题分类器,支持使用IPTC媒体主题模式的顶级类别进行多语种分类。

🔬 方法详解

问题定义:本文旨在解决多语种新闻主题分类问题,现有方法依赖大量人工标注数据,成本高昂且难以扩展。此外,直接使用大型语言模型进行分类计算成本过高,难以满足实际应用需求。

核心思路:利用大型语言模型(LLM)强大的零样本分类能力,将其作为教师模型自动标注多语种新闻数据,然后使用标注数据训练较小的学生模型。这样既可以避免人工标注成本,又能降低计算复杂度。

技术框架:该框架包含两个主要阶段:1) 教师模型标注阶段:使用GPT模型对斯洛文尼亚语、克罗地亚语、希腊语和加泰罗尼亚语的20,000篇新闻文章进行自动标注,分类到IPTC媒体主题模式的17个主要类别中。2) 学生模型训练阶段:使用BERT-like模型作为学生模型,在GPT标注的数据集上进行微调。

关键创新:该方法的核心创新在于利用LLM的零样本能力自动生成训练数据,避免了人工标注的瓶颈。同时,通过Teacher-Student框架,将LLM的知识迁移到较小的模型中,实现了性能和效率的平衡。

关键设计:教师模型采用GPT模型,利用其强大的文本理解和生成能力进行零样本分类。学生模型采用BERT-like模型,通过微调适应特定任务。实验中探索了不同训练数据规模对学生模型性能的影响,并评估了模型的单语、多语和跨语能力。具体参数设置和损失函数等细节在论文中未明确说明,属于未知信息。

📊 实验亮点

实验结果表明,GPT教师模型在四种语言上都表现出很高的零样本性能,与人工标注者的一致性与人工标注者之间的一致性相当。学生模型在GPT标注的数据集上进行微调后,取得了与教师模型相当的高性能,并且在较小的训练数据集上也能达到良好的效果。此外,学生模型还展现出强大的零样本跨语能力。

🎯 应用场景

该研究成果可应用于新闻聚合、信息检索、舆情分析等领域,帮助用户快速准确地获取所需信息。通过自动化的多语种新闻主题分类,可以有效提升信息服务的覆盖范围和用户体验,并为跨文化交流提供便利。

📄 摘要(原文)

With the ever-increasing number of news stories available online, classifying them by topic, regardless of the language they are written in, has become crucial for enhancing readers' access to relevant content. To address this challenge, we propose a teacher-student framework based on large language models (LLMs) for developing multilingual news topic classification models of reasonable size with no need for manual data annotation. The framework employs a Generative Pretrained Transformer (GPT) model as the teacher model to develop a news topic training dataset through automatic annotation of 20,000 news articles in Slovenian, Croatian, Greek, and Catalan. Articles are classified into 17 main categories from the Media Topic schema, developed by the International Press Telecommunications Council (IPTC). The teacher model exhibits high zero-shot performance in all four languages. Its agreement with human annotators is comparable to that between the human annotators themselves. To mitigate the computational limitations associated with the requirement of processing millions of texts daily, smaller BERT-like student models are fine-tuned on the GPT-annotated dataset. These student models achieve high performance comparable to the teacher model. Furthermore, we explore the impact of the training data size on the performance of the student models and investigate their monolingual, multilingual, and zero-shot cross-lingual capabilities. The findings indicate that student models can achieve high performance with a relatively small number of training instances, and demonstrate strong zero-shot cross-lingual abilities. Finally, we publish the best-performing news topic classifier, enabling multilingual classification with the top-level categories of the IPTC Media Topic schema.