BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

作者: Ilias Aarab

分类: cs.CL, cs.AI, cs.LG, stat.ML

发布日期: 2026-03-12

备注: Accepted at ICLR 2026. 31 pages, 5 figures, 9 tables. Code: https://github.com/IliasAarab/btzsc ; Dataset: https://huggingface.co/datasets/btzsc/btzsc ; Leaderboard: https://huggingface.co/spaces/btzsc/btzsc-leaderboard . Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026), 2026

💡 一句话要点

BTZSC：零样本文本分类的综合基准，涵盖跨编码器、嵌入模型、重排序器和LLM

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 文本分类 基准测试 跨编码器 嵌入模型 重排序器 大型语言模型 自然语言处理

📋 核心要点

现有零样本文本分类方法依赖NLI模型，但忽略了文本嵌入、重排序和指令调优LLM的潜力，缺乏系统性比较。
提出BTZSC基准，包含22个数据集，覆盖情感、主题、意图等多种分类任务，用于全面评估不同模型的零样本能力。
实验结果表明，Qwen3-Reranker-8B等重排序器表现最佳，GTE-large-en-v1.5等嵌入模型在精度和效率间取得平衡。

📝 摘要（中文）

零样本文本分类(ZSC)旨在通过将文本直接匹配到人类可读的标签描述，从而消除昂贵的任务特定标注。早期方法主要依赖于为自然语言推理(NLI)微调的跨编码器模型，但文本嵌入模型、重排序器和指令调优的大型语言模型(LLM)的最新进展对基于NLI的架构提出了挑战。然而，系统地比较这些不同的方法仍然很困难。现有的评估，如MTEB，通常通过监督探针或微调来纳入带标签的例子，使得真正的零样本能力未被充分探索。为了解决这个问题，我们引入了BTZSC，一个包含22个公共数据集的综合基准，涵盖情感、主题、意图和情感分类，捕捉了不同的领域、类别基数和文档长度。利用BTZSC，我们对四个主要的模型家族，NLI跨编码器、嵌入模型、重排序器和指令调优的LLM，进行了系统的比较，包括38个公共和自定义检查点。我们的结果表明：(i)现代重排序器，如Qwen3-Reranker-8B，以宏F1 = 0.72创造了新的最先进水平；(ii)强大的嵌入模型，如GTE-large-en-v1.5，在提供准确性和延迟之间的最佳权衡的同时，大大缩小了准确性差距；(iii)参数为4-12B的指令调优LLM实现了有竞争力的性能(宏F1高达0.67)，尤其擅长主题分类，但落后于专门的重排序器；(iv)即使骨干网络规模增加，NLI跨编码器也会达到瓶颈；(v)扩展主要使重排序器和LLM受益，而不是嵌入模型。BTZSC和随附的评估代码已公开发布，以支持零样本文本理解的公平和可重复的进展。

🔬 方法详解

问题定义：论文旨在解决零样本文本分类任务中，缺乏统一基准来评估不同模型（跨编码器、嵌入模型、重排序器、LLM）性能的问题。现有评估方法（如MTEB）通常包含有监督信息，无法真实反映模型的零样本能力。此外，不同模型家族的优缺点缺乏系统性的对比分析。

核心思路：论文的核心思路是构建一个全面的零样本文本分类基准（BTZSC），该基准包含多个数据集，覆盖不同的文本分类任务和领域，从而能够公平地比较不同模型的零样本性能。通过在BTZSC上进行实验，分析不同模型家族的优势和劣势，为未来的零样本文本分类研究提供指导。

技术框架：BTZSC基准包含22个公共数据集，涵盖情感、主题、意图和情感分类等任务。论文对以下四种模型家族进行了评估：1) NLI跨编码器；2) 文本嵌入模型；3) 重排序器；4) 指令调优的LLM。评估流程包括：将文本和标签描述输入模型，根据模型输出的相似度或概率进行分类，并使用宏F1等指标评估性能。

关键创新：BTZSC基准的主要创新在于其专注于纯粹的零样本设置，避免了使用任何有监督信息。此外，BTZSC覆盖了多种文本分类任务和领域，能够更全面地评估模型的泛化能力。通过对比不同模型家族的性能，论文揭示了各种模型的优势和劣势，为未来的研究提供了有价值的见解。

关键设计：BTZSC基准的数据集选择考虑了领域多样性、类别数量和文档长度等因素。评估指标主要采用宏F1，以平衡不同类别之间的性能差异。对于LLM，采用指令调优的方式，并设计合适的prompt来引导模型进行分类。对于重排序器，使用文本和标签描述作为输入，并根据重排序得分进行分类。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Qwen3-Reranker-8B等重排序器在BTZSC基准上取得了最佳性能，宏F1达到0.72。GTE-large-en-v1.5等嵌入模型在精度和效率之间取得了较好的平衡。指令调优的LLM在主题分类任务上表现出色，但整体性能略逊于重排序器。NLI跨编码器在模型规模增大时性能提升有限。

🎯 应用场景

该研究成果可应用于各种文本分类场景，尤其是在缺乏标注数据的领域。例如，可以用于自动识别用户评论的情感倾向、对新闻文章进行主题分类、理解用户意图等。该基准的发布将促进零样本文本分类技术的发展，降低模型部署成本，并加速AI在各行业的应用。

📄 摘要（原文）

Zero-shot text classification (ZSC) offers the promise of eliminating costly task-specific annotation by matching texts directly to human-readable label descriptions. While early approaches have predominantly relied on cross-encoder models fine-tuned for natural language inference (NLI), recent advances in text-embedding models, rerankers, and instruction-tuned large language models (LLMs) have challenged the dominance of NLI-based architectures. Yet, systematically comparing these diverse approaches remains difficult. Existing evaluations, such as MTEB, often incorporate labeled examples through supervised probes or fine-tuning, leaving genuine zero-shot capabilities underexplored. To address this, we introduce BTZSC, a comprehensive benchmark of 22 public datasets spanning sentiment, topic, intent, and emotion classification, capturing diverse domains, class cardinalities, and document lengths. Leveraging BTZSC, we conduct a systematic comparison across four major model families, NLI cross-encoders, embedding models, rerankers and instruction-tuned LLMs, encompassing 38 public and custom checkpoints. Our results show that: (i) modern rerankers, exemplified by Qwen3-Reranker-8B, set a new state-of-the-art with macro F1 = 0.72; (ii) strong embedding models such as GTE-large-en-v1.5 substantially close the accuracy gap while offering the best trade-off between accuracy and latency; (iii) instruction-tuned LLMs at 4--12B parameters achieve competitive performance (macro F1 up to 0.67), excelling particularly on topic classification but trailing specialized rerankers; (iv) NLI cross-encoders plateau even as backbone size increases; and (v) scaling primarily benefits rerankers and LLMs over embedding models. BTZSC and accompanying evaluation code are publicly released to support fair and reproducible progress in zero-shot text understanding.

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理