BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

📄 arXiv: 2603.11991v1 📥 PDF

作者: Ilias Aarab

分类: cs.CL, cs.AI, cs.LG, stat.ML

发布日期: 2026-03-12

备注: Accepted at ICLR 2026. 31 pages, 5 figures, 9 tables. Code: https://github.com/IliasAarab/btzsc ; Dataset: https://huggingface.co/datasets/btzsc/btzsc ; Leaderboard: https://huggingface.co/spaces/btzsc/btzsc-leaderboard . Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026), 2026


💡 一句话要点

BTZSC:零样本文本分类的综合基准,涵盖跨编码器、嵌入模型、重排序器和LLM

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 文本分类 基准测试 跨编码器 嵌入模型 重排序器 大型语言模型 自然语言处理

📋 核心要点

  1. 现有零样本文本分类方法依赖NLI模型,但忽略了文本嵌入、重排序和指令调优LLM的潜力,缺乏系统性比较。
  2. 提出BTZSC基准,包含22个数据集,覆盖情感、主题、意图等多种分类任务,用于全面评估不同模型的零样本能力。
  3. 实验结果表明,Qwen3-Reranker-8B等重排序器表现最佳,GTE-large-en-v1.5等嵌入模型在精度和效率间取得平衡。

📝 摘要(中文)

零样本文本分类(ZSC)旨在通过将文本直接匹配到人类可读的标签描述,从而消除昂贵的任务特定标注。早期方法主要依赖于为自然语言推理(NLI)微调的跨编码器模型,但文本嵌入模型、重排序器和指令调优的大型语言模型(LLM)的最新进展对基于NLI的架构提出了挑战。然而,系统地比较这些不同的方法仍然很困难。现有的评估,如MTEB,通常通过监督探针或微调来纳入带标签的例子,使得真正的零样本能力未被充分探索。为了解决这个问题,我们引入了BTZSC,一个包含22个公共数据集的综合基准,涵盖情感、主题、意图和情感分类,捕捉了不同的领域、类别基数和文档长度。利用BTZSC,我们对四个主要的模型家族,NLI跨编码器、嵌入模型、重排序器和指令调优的LLM,进行了系统的比较,包括38个公共和自定义检查点。我们的结果表明:(i)现代重排序器,如Qwen3-Reranker-8B,以宏F1 = 0.72创造了新的最先进水平;(ii)强大的嵌入模型,如GTE-large-en-v1.5,在提供准确性和延迟之间的最佳权衡的同时,大大缩小了准确性差距;(iii)参数为4-12B的指令调优LLM实现了有竞争力的性能(宏F1高达0.67),尤其擅长主题分类,但落后于专门的重排序器;(iv)即使骨干网络规模增加,NLI跨编码器也会达到瓶颈;(v)扩展主要使重排序器和LLM受益,而不是嵌入模型。BTZSC和随附的评估代码已公开发布,以支持零样本文本理解的公平和可重复的进展。

🔬 方法详解

问题定义:论文旨在解决零样本文本分类任务中,缺乏统一基准来评估不同模型(跨编码器、嵌入模型、重排序器、LLM)性能的问题。现有评估方法(如MTEB)通常包含有监督信息,无法真实反映模型的零样本能力。此外,不同模型家族的优缺点缺乏系统性的对比分析。

核心思路:论文的核心思路是构建一个全面的零样本文本分类基准(BTZSC),该基准包含多个数据集,覆盖不同的文本分类任务和领域,从而能够公平地比较不同模型的零样本性能。通过在BTZSC上进行实验,分析不同模型家族的优势和劣势,为未来的零样本文本分类研究提供指导。

技术框架:BTZSC基准包含22个公共数据集,涵盖情感、主题、意图和情感分类等任务。论文对以下四种模型家族进行了评估:1) NLI跨编码器;2) 文本嵌入模型;3) 重排序器;4) 指令调优的LLM。评估流程包括:将文本和标签描述输入模型,根据模型输出的相似度或概率进行分类,并使用宏F1等指标评估性能。

关键创新:BTZSC基准的主要创新在于其专注于纯粹的零样本设置,避免了使用任何有监督信息。此外,BTZSC覆盖了多种文本分类任务和领域,能够更全面地评估模型的泛化能力。通过对比不同模型家族的性能,论文揭示了各种模型的优势和劣势,为未来的研究提供了有价值的见解。

关键设计:BTZSC基准的数据集选择考虑了领域多样性、类别数量和文档长度等因素。评估指标主要采用宏F1,以平衡不同类别之间的性能差异。对于LLM,采用指令调优的方式,并设计合适的prompt来引导模型进行分类。对于重排序器,使用文本和标签描述作为输入,并根据重排序得分进行分类。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Qwen3-Reranker-8B等重排序器在BTZSC基准上取得了最佳性能,宏F1达到0.72。GTE-large-en-v1.5等嵌入模型在精度和效率之间取得了较好的平衡。指令调优的LLM在主题分类任务上表现出色,但整体性能略逊于重排序器。NLI跨编码器在模型规模增大时性能提升有限。

🎯 应用场景

该研究成果可应用于各种文本分类场景,尤其是在缺乏标注数据的领域。例如,可以用于自动识别用户评论的情感倾向、对新闻文章进行主题分类、理解用户意图等。该基准的发布将促进零样本文本分类技术的发展,降低模型部署成本,并加速AI在各行业的应用。

📄 摘要(原文)

Zero-shot text classification (ZSC) offers the promise of eliminating costly task-specific annotation by matching texts directly to human-readable label descriptions. While early approaches have predominantly relied on cross-encoder models fine-tuned for natural language inference (NLI), recent advances in text-embedding models, rerankers, and instruction-tuned large language models (LLMs) have challenged the dominance of NLI-based architectures. Yet, systematically comparing these diverse approaches remains difficult. Existing evaluations, such as MTEB, often incorporate labeled examples through supervised probes or fine-tuning, leaving genuine zero-shot capabilities underexplored. To address this, we introduce BTZSC, a comprehensive benchmark of 22 public datasets spanning sentiment, topic, intent, and emotion classification, capturing diverse domains, class cardinalities, and document lengths. Leveraging BTZSC, we conduct a systematic comparison across four major model families, NLI cross-encoders, embedding models, rerankers and instruction-tuned LLMs, encompassing 38 public and custom checkpoints. Our results show that: (i) modern rerankers, exemplified by Qwen3-Reranker-8B, set a new state-of-the-art with macro F1 = 0.72; (ii) strong embedding models such as GTE-large-en-v1.5 substantially close the accuracy gap while offering the best trade-off between accuracy and latency; (iii) instruction-tuned LLMs at 4--12B parameters achieve competitive performance (macro F1 up to 0.67), excelling particularly on topic classification but trailing specialized rerankers; (iv) NLI cross-encoders plateau even as backbone size increases; and (v) scaling primarily benefits rerankers and LLMs over embedding models. BTZSC and accompanying evaluation code are publicly released to support fair and reproducible progress in zero-shot text understanding.