Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text

📄 arXiv: 2409.02078v1 📥 PDF

作者: Michael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng

分类: cs.CL

发布日期: 2024-09-03

备注: 26 pages, 5 figures

DOI: 10.1017/pan.2025.10028


💡 一句话要点

Political DEBATE:高效的政治文本零样本与少样本分类器

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 政治文本分类 零样本学习 少样本学习 文本蕴含 DeBERTa PolNLI数据集 自然语言处理

📋 核心要点

  1. 大型语言模型在无需监督训练的情况下标注文档的能力(即零样本学习)被社会科学家广泛采用,但其计算需求、成本和专有性与可复现性和开放科学标准相悖。
  2. Political DEBATE模型通过文本蕴含训练DeBERTa模型,实现高效的政治文本分类,在零样本和少样本场景下优于或媲美大型语言模型。
  3. 该模型仅需少量样本(10-25个文档)训练,即可超越在大量数据上训练的有监督模型,并发布了包含20万政治文档的PolNLI数据集。

📝 摘要(中文)

本文提出了Political DEBATE (DeBERTa Algorithm for Textual Entailment) 语言模型,用于政治文档的零样本和少样本分类。这些模型在零样本和少样本分类任务中,性能与最先进的大型语言模型相当甚至更好,同时效率更高,并且完全开源。通过在10-25个文档的简单随机样本上进行训练,它们可以胜过在数百或数千个文档上训练的有监督分类器,以及具有复杂prompt工程的最先进的生成模型。此外,我们发布了用于训练这些模型的PolNLI数据集——一个包含超过20万个政治文档的语料库,这些文档在超过800个分类任务中具有高度准确的标签。

🔬 方法详解

问题定义:现有的大型语言模型虽然在零样本和少样本分类任务中表现出色,但其高昂的计算成本、商业授权以及缺乏透明度限制了其在政治学等领域的广泛应用,阻碍了研究的可复现性和开放性。因此,需要一种更高效、开源且性能优异的政治文本分类方法。

核心思路:该论文的核心思路是利用文本蕴含(Textual Entailment)任务来训练一个轻量级的语言模型,使其能够理解政治文本的语义,并进行准确的分类。通过将分类问题转化为判断文本蕴含关系的问题,可以有效地利用预训练语言模型的知识,并减少对大量标注数据的依赖。

技术框架:Political DEBATE模型的训练流程主要包括以下几个步骤:1) 构建PolNLI数据集,该数据集包含大量的政治文本,并标注了文本之间的蕴含关系;2) 使用PolNLI数据集对DeBERTa模型进行微调,使其能够准确地判断文本之间的蕴含关系;3) 将分类任务转化为文本蕴含任务,例如,对于一个二分类问题,可以将文本与两个候选标签分别组合,然后判断文本是否蕴含该标签。

关键创新:该论文的关键创新在于:1) 提出了Political DEBATE模型,该模型在零样本和少样本分类任务中表现出色,同时具有高效和开源的优点;2) 构建了PolNLI数据集,该数据集包含大量的政治文本,并标注了文本之间的蕴含关系,为政治文本分类研究提供了宝贵的数据资源;3) 将分类问题转化为文本蕴含问题,有效地利用了预训练语言模型的知识,并减少了对大量标注数据的依赖。

关键设计:Political DEBATE模型基于DeBERTa架构,并使用PolNLI数据集进行微调。在训练过程中,使用了交叉熵损失函数来优化模型,并采用了AdamW优化器。对于少样本学习,使用了简单的随机抽样方法来选择训练样本。模型的具体参数设置(如学习率、batch size等)在论文中有详细描述。

📊 实验亮点

Political DEBATE模型在零样本和少样本分类任务中表现出色,在某些任务上甚至优于最先进的大型语言模型。例如,在少样本分类任务中,仅使用10-25个训练样本,Political DEBATE模型就可以胜过在数百或数千个样本上训练的有监督分类器。此外,该模型还具有高效的优点,其训练和推理速度远快于大型语言模型。

🎯 应用场景

Political DEBATE模型可广泛应用于政治学、社会学、传播学等领域,例如:政治立场识别、新闻偏见检测、舆情分析、政策文本分类等。该模型的高效性和开源性使其能够被研究人员和政策制定者快速部署和使用,从而促进相关领域的研究和应用,并有助于提高政治分析的透明度和可信度。

📄 摘要(原文)

Social scientists quickly adopted large language models due to their ability to annotate documents without supervised training, an ability known as zero-shot learning. However, due to their compute demands, cost, and often proprietary nature, these models are often at odds with replication and open science standards. This paper introduces the Political DEBATE (DeBERTa Algorithm for Textual Entailment) language models for zero-shot and few-shot classification of political documents. These models are not only as good, or better than, state-of-the art large language models at zero and few-shot classification, but are orders of magnitude more efficient and completely open source. By training the models on a simple random sample of 10-25 documents, they can outperform supervised classifiers trained on hundreds or thousands of documents and state-of-the-art generative models with complex, engineered prompts. Additionally, we release the PolNLI dataset used to train these models -- a corpus of over 200,000 political documents with highly accurate labels across over 800 classification tasks.