Boosting Short Text Classification with Multi-Source Information Exploration and Dual-Level Contrastive Learning

📄 arXiv: 2501.09214v1 📥 PDF

作者: Yonghao Liu, Mengyu Li, Wei Pang, Fausto Giunchiglia, Lan Huang, Xiaoyue Feng, Renchu Guan

分类: cs.CL

发布日期: 2025-01-16

备注: AAAI2025


💡 一句话要点

提出MI-DELIGHT模型,通过多源信息探索和双层对比学习提升短文本分类性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 短文本分类 多源信息融合 图学习 对比学习 分层架构 语义稀疏性 自然语言处理

📋 核心要点

  1. 短文本分类面临语义稀疏和标注数据不足的挑战,影响模型性能。
  2. MI-DELIGHT模型通过融合统计、语言和事实等多源信息,缓解语义稀疏问题。
  3. 实验结果表明,MI-DELIGHT在多个数据集上显著超越现有模型,甚至优于大型语言模型。

📝 摘要(中文)

短文本分类是自然语言处理中的一个研究子课题,由于其语义稀疏性和实际场景中标注样本不足,因此更具挑战性。本文提出了一种名为MI-DELIGHT的新模型用于短文本分类。具体来说,它首先执行多源信息(即,统计信息、语言信息和事实信息)探索,以缓解稀疏性问题。然后,采用图学习方法来学习以图形式呈现的短文本的表示。此外,我们引入了一个双层(即,实例级和集群级)对比学习辅助任务,以有效地捕获大量未标记数据中不同粒度的对比信息。同时,以往的模型仅仅并行地执行主任务和辅助任务,而没有考虑任务之间的关系。因此,我们引入了一个分层架构来显式地建模任务之间的相关性。我们在各种基准数据集上进行了广泛的实验,表明MI-DELIGHT显著优于以往具有竞争力的模型。它甚至在几个数据集上优于流行的大型语言模型。

🔬 方法详解

问题定义:短文本分类任务由于文本长度短,信息量少,存在严重的语义稀疏性问题,导致传统文本分类方法难以有效提取文本特征。此外,实际应用中往往缺乏足够的标注数据,进一步加剧了模型训练的难度。现有方法通常忽略了多源信息的融合以及任务间的关系,限制了模型性能的提升。

核心思路:MI-DELIGHT的核心思路是通过多源信息探索来丰富短文本的语义表示,利用图学习方法捕捉文本间的关系,并通过双层对比学习从未标注数据中挖掘有用的对比信息。同时,采用分层架构显式建模主任务和辅助任务之间的相关性,从而提升模型的泛化能力。

技术框架:MI-DELIGHT模型主要包含以下几个模块:1) 多源信息探索模块:从统计信息、语言信息和事实信息三个方面提取特征,丰富短文本的语义表示。2) 图学习模块:将短文本表示为图结构,利用图神经网络学习文本间的关系。3) 双层对比学习模块:在实例级别和集群级别进行对比学习,从未标注数据中挖掘对比信息。4) 分层架构:显式建模主任务(短文本分类)和辅助任务(对比学习)之间的相关性。

关键创新:MI-DELIGHT的关键创新在于:1) 提出了多源信息探索方法,有效缓解了短文本的语义稀疏性问题。2) 引入了双层对比学习,充分利用了未标注数据中的对比信息。3) 采用了分层架构,显式建模了任务间的相关性,提升了模型的泛化能力。

关键设计:在多源信息探索模块中,使用了TF-IDF等统计方法、词性标注等语言学方法以及知识图谱等事实信息来源。在图学习模块中,使用了GCN等图神经网络。在双层对比学习模块中,设计了实例级别的对比损失和集群级别的对比损失。在分层架构中,使用了注意力机制来建模任务间的相关性。具体的损失函数和网络结构参数未知。

🖼️ 关键图片

fig_0

📊 实验亮点

MI-DELIGHT模型在多个基准数据集上取得了显著的性能提升,超越了以往具有竞争力的模型,甚至在某些数据集上优于流行的大型语言模型。具体的性能数据和提升幅度在论文中给出,但此处未提供具体数值。

🎯 应用场景

MI-DELIGHT模型可应用于各种短文本分类场景,如新闻分类、情感分析、垃圾邮件识别、用户意图识别等。该模型能够有效提升短文本分类的准确率和泛化能力,具有重要的实际应用价值。未来,可以进一步探索将该模型应用于更复杂的自然语言处理任务中。

📄 摘要(原文)

Short text classification, as a research subtopic in natural language processing, is more challenging due to its semantic sparsity and insufficient labeled samples in practical scenarios. We propose a novel model named MI-DELIGHT for short text classification in this work. Specifically, it first performs multi-source information (i.e., statistical information, linguistic information, and factual information) exploration to alleviate the sparsity issues. Then, the graph learning approach is adopted to learn the representation of short texts, which are presented in graph forms. Moreover, we introduce a dual-level (i.e., instance-level and cluster-level) contrastive learning auxiliary task to effectively capture different-grained contrastive information within massive unlabeled data. Meanwhile, previous models merely perform the main task and auxiliary tasks in parallel, without considering the relationship among tasks. Therefore, we introduce a hierarchical architecture to explicitly model the correlations between tasks. We conduct extensive experiments across various benchmark datasets, demonstrating that MI-DELIGHT significantly surpasses previous competitive models. It even outperforms popular large language models on several datasets.