Open-world Multi-label Text Classification with Extremely Weak Supervision
作者: Xintong Li, Jinya Jiang, Ria Dharmani, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang
分类: cs.CL
发布日期: 2024-07-08
备注: Preprint
💡 一句话要点
提出X-MLClass,解决极弱监督下的开放世界多标签文本分类问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多标签文本分类 极弱监督学习 开放世界学习 大型语言模型 零样本学习
📋 核心要点
- 现有单标签极弱监督方法难以直接应用于多标签文本分类,无法有效处理类别重叠和长尾标签问题。
- 利用大型语言模型生成关键词,结合聚类构建初始标签空间,并通过迭代优化发现长尾标签。
- 实验表明,X-MLClass在标签空间覆盖率和分类精度上均优于现有方法,例如在AAPD数据集上标签覆盖率提升40%。
📝 摘要(中文)
本文研究了极弱监督(XWS)下的开放世界多标签文本分类问题,在这种设置下,用户仅提供分类目标的简要描述,而没有任何标签或ground-truth标签空间。虽然已经有一些针对类似单标签XWS设置的研究,但这些方法难以直接应用于多标签场景。我们观察到(1)大多数文档都有一个覆盖大部分内容的主导类别,并且(2)长尾标签会在某些文档中作为主导类别出现。因此,我们首先利用用户描述来提示大型语言模型(LLM),以获取一部分原始文档的主导关键词,然后通过聚类构建(初始)标签空间。我们进一步应用零样本多标签分类器来定位预测得分较低的文档,以便重新审视它们的主导关键词,从而发现更多的长尾标签。我们迭代这个过程来发现一个全面的标签空间,并构建一个多标签分类器,即X-MLClass。在各种数据集上,X-MLClass在ground-truth标签空间覆盖率方面表现出显著提升,例如,在AAPD数据集上比主题建模和关键词提取方法提高了40%。此外,X-MLClass实现了最佳的端到端多标签分类精度。
🔬 方法详解
问题定义:论文旨在解决极弱监督下的开放世界多标签文本分类问题。现有方法,特别是针对单标签场景设计的,无法有效处理多标签分类中标签之间的复杂关系,以及长尾标签的发现问题。用户仅提供类别描述,缺乏标注数据,使得构建全面的标签空间和训练有效的分类器成为挑战。
核心思路:论文的核心思路是通过迭代的方式,利用大型语言模型(LLM)和零样本分类器,逐步发现并完善标签空间。首先利用LLM生成主导关键词,然后通过聚类构建初始标签空间。接着,利用零样本分类器识别置信度低的样本,并重新审视这些样本,挖掘潜在的长尾标签。
技术框架:X-MLClass的整体流程如下: 1. 关键词生成:使用用户提供的类别描述,提示LLM生成原始文档子集的主导关键词。 2. 初始标签空间构建:对生成的关键词进行聚类,形成初始的标签空间。 3. 零样本分类:使用零样本多标签分类器对文档进行分类,并评估预测置信度。 4. 长尾标签发现:对于预测置信度低的文档,重新审视其主导关键词,挖掘潜在的长尾标签,并更新标签空间。 5. 迭代优化:重复步骤3和4,直到标签空间收敛或达到预设的迭代次数。 6. 多标签分类器训练:使用最终的标签空间训练多标签分类器。
关键创新:X-MLClass的关键创新在于其迭代式的标签空间发现方法。与传统方法依赖人工标注或预定义的标签空间不同,X-MLClass能够利用LLM和零样本分类器,在极弱监督的条件下,自动发现并完善标签空间,特别是能够有效地发现长尾标签。
关键设计:论文的关键设计包括: 1. LLM Prompt设计:如何有效地利用用户提供的类别描述,提示LLM生成高质量的主导关键词。 2. 聚类算法选择:选择合适的聚类算法,将生成的关键词聚类成有意义的标签。 3. 零样本分类器选择:选择合适的零样本多标签分类器,用于评估预测置信度并识别需要重新审视的文档。 4. 迭代停止条件:设置合理的迭代停止条件,以避免过度迭代或过早停止。
🖼️ 关键图片
📊 实验亮点
X-MLClass在多个数据集上取得了显著的性能提升。例如,在AAPD数据集上,X-MLClass的ground-truth标签空间覆盖率比主题建模和关键词提取方法提高了40%。同时,X-MLClass在端到端多标签分类精度上也优于现有方法,证明了其在极弱监督多标签文本分类任务中的有效性。
🎯 应用场景
该研究成果可应用于新闻分类、舆情分析、产品评论分类等领域,尤其适用于缺乏标注数据或标签空间未知的场景。通过极弱监督的方式,可以降低标注成本,快速构建多标签分类器,并有效发现长尾类别,提升分类系统的泛化能力和实用性。未来可扩展到图像、视频等多模态数据的分类任务。
📄 摘要(原文)
We study open-world multi-label text classification under extremely weak supervision (XWS), where the user only provides a brief description for classification objectives without any labels or ground-truth label space. Similar single-label XWS settings have been explored recently, however, these methods cannot be easily adapted for multi-label. We observe that (1) most documents have a dominant class covering the majority of content and (2) long-tail labels would appear in some documents as a dominant class. Therefore, we first utilize the user description to prompt a large language model (LLM) for dominant keyphrases of a subset of raw documents, and then construct a (initial) label space via clustering. We further apply a zero-shot multi-label classifier to locate the documents with small top predicted scores, so we can revisit their dominant keyphrases for more long-tail labels. We iterate this process to discover a comprehensive label space and construct a multi-label classifier as a novel method, X-MLClass. X-MLClass exhibits a remarkable increase in ground-truth label space coverage on various datasets, for example, a 40% improvement on the AAPD dataset over topic modeling and keyword extraction methods. Moreover, X-MLClass achieves the best end-to-end multi-label classification accuracy.