Data Quality Enhancement on the Basis of Diversity with Large Language Models for Text Classification: Uncovered, Difficult, and Noisy

作者: Min Zeng, Caiquan Liu, Shiqi Zhang, Li Xie, Chen Sang, Xiaoxin Chen

分类: cs.CL

发布日期: 2024-12-09 (更新: 2024-12-10)

备注: Accepted by COLING 2025(main, long paper)

💡 一句话要点

提出基于LLM多样性的数据质量增强方法，提升文本分类性能并加速训练。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本分类 数据质量增强 贪婪算法 微调

📋 核心要点

现有基于LLM的数据质量研究难以直接应用于解决文本分类问题，限制了LLM在分类任务中的性能提升。
提出一种基于LLM的数据质量增强方法，通过识别并处理未覆盖、困难和噪声数据来优化训练集。
实验表明，该方法能有效提升LLM在文本分类任务中的性能，并显著提高训练效率，在多个数据集上取得SOTA结果。

📝 摘要（中文）

本文提出了一种基于大型语言模型（LLM）的文本分类数据质量增强（DQE）方法。该方法首先使用贪婪算法选择数据，将数据集划分为抽样和未抽样子集，然后使用抽样数据对LLM进行微调。随后，使用微调后的模型预测未抽样数据的标签，并将预测错误的数据分类为未覆盖数据、困难数据和噪声数据。实验结果表明，该方法有效地提升了LLM在文本分类任务中的性能，并显著提高了训练效率，节省了近一半的训练时间。该方法在多个开源分类任务中取得了最先进的性能。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在文本分类任务中，由于训练数据质量不高而导致的性能瓶颈问题。现有的数据质量研究方法难以直接应用于文本分类，无法充分利用LLM的潜力。

核心思路：论文的核心思路是通过识别并处理训练数据中的未覆盖数据、困难数据和噪声数据，从而提升训练数据的整体质量。通过优化训练数据，提高LLM在文本分类任务中的准确性和效率。

技术框架：该方法主要包含以下几个阶段：1) 使用贪婪算法对原始数据集进行抽样，得到抽样数据集和未抽样数据集。2) 使用抽样数据集对LLM进行微调。3) 使用微调后的LLM预测未抽样数据集的标签。4) 根据预测结果，将未抽样数据集中预测错误的数据划分为未覆盖数据、困难数据和噪声数据。5) 通过对这些数据进行处理（例如，数据增强、标签修正等）来提升数据质量。

关键创新：该方法的主要创新在于提出了一种基于LLM预测结果的数据质量评估和增强框架，能够有效地识别和处理文本分类任务中的低质量数据。与传统的数据清洗方法相比，该方法能够更准确地定位影响LLM性能的关键数据。

关键设计：贪婪抽样算法用于选择最具代表性的数据子集进行微调，以减少训练时间和计算成本。预测错误的样本被进一步分类为“未覆盖”、“困难”和“噪声”三种类型，可能使用了不同的置信度阈值或错误类型分析方法进行区分。具体的损失函数和网络结构沿用了预训练LLM的设置，重点在于数据选择和错误样本分析。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法能够有效提升LLM在文本分类任务中的性能，并在多个开源分类任务中取得了最先进的性能。更重要的是，该方法显著提高了训练效率，节省了近一半的训练时间。这些结果表明，该方法在提升LLM性能和效率方面具有显著优势。

🎯 应用场景

该研究成果可广泛应用于各种文本分类任务，例如情感分析、主题分类、垃圾邮件检测等。通过提升训练数据的质量，可以提高LLM在这些任务中的性能，并降低训练成本。该方法还有助于构建更加可靠和高效的文本分类系统，具有重要的实际应用价值和潜在的商业前景。

📄 摘要（原文）

In recent years, the use of large language models (LLMs) for text classification has attracted widespread attention. Despite this, the classification accuracy of LLMs has not yet universally surpassed that of smaller models. LLMs can enhance their performance in text classification through fine-tuning. However, existing data quality research based on LLMs is challenging to apply directly to solve text classification problems. To further improve the performance of LLMs in classification tasks, this paper proposes a data quality enhancement (DQE) method for text classification based on LLMs. This method starts by using a greedy algorithm to select data, dividing the dataset into sampled and unsampled subsets, and then performing fine-tuning of the LLMs using the sampled data. Subsequently, this model is used to predict the outcomes for the unsampled data, categorizing incorrectly predicted data into uncovered, difficult, and noisy data. Experimental results demonstrate that our method effectively enhances the performance of LLMs in text classification tasks and significantly improves training efficiency, saving nearly half of the training time. Our method has achieved state-of-the-art performance in several open-source classification tasks.

Data Quality Enhancement on the Basis of Diversity with Large Language Models for Text Classification: Uncovered, Difficult, and Noisy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理