CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

📄 arXiv: 2410.18505v2 📥 PDF

作者: Liangdong Wang, Bo-Wen Zhang, Chengwei Wu, Hanyu Zhao, Xiaofeng Shi, Shuhao Gu, Jijie Li, Quanyue Ma, TengFei Pan, Guang Liu

分类: cs.CL

发布日期: 2024-10-24 (更新: 2024-10-25)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

提出CCI3.0-HQ高质量中文预训练数据集,提升小模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中文预训练 大规模数据集 数据过滤 语言模型 自然语言处理

📋 核心要点

  1. 现有中文预训练数据集质量参差不齐,影响了训练出高性能语言模型的效果。
  2. 论文提出一种两阶段混合过滤流程,用于从大规模语料库中提取高质量数据子集。
  3. 实验表明,使用CCI3.0-HQ训练的小模型在多个基准测试中超越了使用其他数据集训练的模型。

📝 摘要(中文)

本文介绍了CCI3.0-HQ,一个高质量的500GB中文数据集子集,来源于Chinese Corpora Internet 3.0 (CCI3.0)。该数据集通过一种新颖的两阶段混合过滤流程开发,显著提高了数据质量。为了评估其有效性,我们从头开始在包含1000亿token的各种数据集上训练了一个0.5B参数的模型,在零样本设置下,该模型在10个基准测试中取得了优于CCI3.0、SkyPile和WanjuanV1的性能。高质量的过滤过程有效地将Qwen2-72B-instruct模型的能力提炼到一个紧凑的0.5B模型中,从而获得了中文网络数据分类的最佳F1分数。我们相信这个开放获取的数据集将促进对高质量语言模型的更广泛访问。

🔬 方法详解

问题定义:论文旨在解决大规模中文预训练数据集质量不高的问题。现有数据集通常包含大量噪声、低质量或不相关的内容,这会损害预训练语言模型的性能。现有方法缺乏有效的数据清洗和过滤机制,难以保证数据集的质量。

核心思路:论文的核心思路是设计一个两阶段混合过滤流程,该流程结合了基于规则的过滤和基于模型的过滤,以最大限度地提高数据质量。基于规则的过滤用于快速去除明显低质量的数据,而基于模型的过滤则用于更精细地识别和去除语义上不相关或有害的内容。

技术框架:该方法包含以下两个主要阶段: 1. 基于规则的过滤:使用一系列预定义的规则,例如关键词过滤、长度过滤和重复数据删除,快速去除低质量数据。 2. 基于模型的过滤:使用预训练的语言模型(例如Qwen2-72B-instruct)对数据进行分类,识别并去除不相关、有害或低质量的内容。具体来说,使用该模型对数据进行分类,然后设置一个阈值,将低于该阈值的数据过滤掉。

关键创新:该方法的主要创新点在于其两阶段混合过滤流程。通过结合基于规则的过滤和基于模型的过滤,该方法能够更有效地去除低质量数据,从而提高数据集的整体质量。此外,使用Qwen2-72B-instruct模型进行过滤也是一个创新点,该模型具有强大的语义理解能力,可以更准确地识别和去除不相关的内容。

关键设计:在基于规则的过滤阶段,需要仔细选择规则,以避免过度过滤或过滤不足。在基于模型的过滤阶段,需要选择合适的预训练语言模型和阈值,以平衡数据质量和数据量。论文中使用了Qwen2-72B-instruct模型,并根据实验结果设置了合适的阈值。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用CCI3.0-HQ训练的0.5B参数模型在10个基准测试中取得了优于CCI3.0、SkyPile和WanjuanV1的性能。此外,该模型在中文网络数据分类任务中获得了最佳的F1分数,表明该数据集能够有效地提升小模型的性能。

🎯 应用场景

该研究成果可广泛应用于中文自然语言处理领域,例如预训练语言模型、文本分类、信息检索和机器翻译等。高质量的预训练数据集能够提升各种下游任务的性能,降低模型训练成本,并促进中文自然语言处理技术的发展。该数据集的开放获取将有助于学术界和工业界的研究人员。

📄 摘要(原文)

We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To evaluate its effectiveness, we trained a 0.5B parameter model from scratch on 100B tokens across various datasets, achieving superior performance on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and WanjuanV1. The high-quality filtering process effectively distills the capabilities of the Qwen2-72B-instruct model into a compact 0.5B model, attaining optimal F1 scores for Chinese web data classification. We believe this open-access dataset will facilitate broader access to high-quality language models.