ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information

📄 arXiv: 2411.19668v1 📥 PDF

作者: Wanyue Zhang, Ziyong Li, Wen Yang, Chunlin Leng, Yinan Bai, Qianlong Du, Chengqing Zong, Jiajun Zhang

分类: cs.CL, cs.AI

发布日期: 2024-11-29

备注: ChineseWebTex2.0 dataset is available at https://github.com/CASIA-LM/ChineseWebText-2.0

🔗 代码/项目: GITHUB


💡 一句话要点

构建多维度细粒度中文Web文本数据集,助力领域LLM安全研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中文Web文本 大规模数据集 预训练数据 细粒度标注 质量评估 领域分类 毒性检测

📋 核心要点

  1. 现有LLM预训练数据集在领域针对性和安全性方面存在不足,无法满足日益增长的需求。
  2. 提出MDFG-tool工具链,通过规则过滤、质量评估、领域分类和毒性评估,构建高质量数据集。
  3. 发布包含3.8TB数据的ChineseWebText2.0,提供质量、领域、毒性等多维度细粒度信息。

📝 摘要(中文)

大规模语言模型(LLMs)的开发中,预训练数据在塑造LLMs的能力方面起着关键作用。近年来,涌现出多个大规模高质量的预训练数据集,包括ChineseWebText1.0、C4、Pile、WanJuan、MAPCC等,加速了LLMs的研究。然而,随着LLMs的不断发展,人们越来越关注特定领域的能力和安全问题,这使得之前粗粒度的文本不足以满足训练需求。此外,质量、领域和毒性等细粒度信息在构建强大且可靠的LLMs以适应各种场景中变得越来越重要。为了应对这些挑战,本文提出了一种名为MDFG-tool的新工具链,用于构建具有多维度和细粒度信息的大规模高质量中文数据集。首先,我们采用手动制定的规则来丢弃原始内容中明显的噪声文本。其次,我们精心设计了质量评估模型、领域分类器和毒性评估模型,分别评估剩余的清洗数据。最后,我们整合了每段文本的这三种细粒度信息。通过这种方法,我们发布了最大、高质量和细粒度的中文文本ChineseWebText2.0,它包含3.8TB的数据,并且每段文本都与质量分数、领域标签、毒性标签和毒性分数相关联,方便LLM研究人员根据各种类型的细粒度信息选择数据。

🔬 方法详解

问题定义:现有的大规模中文预训练数据集通常是粗粒度的,缺乏细粒度的信息,例如文本质量、领域和毒性。这使得它们在训练特定领域或对安全性有要求的LLM时不够有效。此外,手动过滤噪声数据成本高昂,需要自动化的解决方案。

核心思路:核心思路是构建一个自动化的工具链(MDFG-tool),该工具链能够从大规模的Web文本中提取高质量的中文文本,并对其进行多维度和细粒度的标注。通过规则过滤、质量评估、领域分类和毒性评估,最终得到高质量、细粒度的数据集。

技术框架:MDFG-tool工具链包含以下几个主要模块:1) 噪声过滤:使用手动制定的规则过滤明显的噪声文本。2) 质量评估:使用质量评估模型对剩余文本进行质量评估,并给出质量分数。3) 领域分类:使用领域分类器对文本进行领域分类,并给出领域标签。4) 毒性评估:使用毒性评估模型对文本进行毒性评估,并给出毒性标签和毒性分数。最后,将这些信息整合到一起,形成最终的数据集。

关键创新:关键创新在于MDFG-tool工具链的自动化和多维度细粒度标注能力。该工具链能够自动地从大规模Web文本中提取高质量的中文文本,并对其进行质量、领域和毒性等多维度的标注,从而为LLM的训练提供更丰富的信息。

关键设计:质量评估模型、领域分类器和毒性评估模型的设计是关键。论文中提到这些模型是“well-designed”,但没有给出具体的网络结构、损失函数或参数设置等细节。规则过滤的具体规则也未详细说明,这些是未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文发布了包含3.8TB数据的ChineseWebText2.0数据集,是目前最大的高质量细粒度中文Web文本数据集。该数据集提供了质量分数、领域标签、毒性标签和毒性分数等多维度信息,方便研究人员根据需求选择数据。具体性能数据和对比基线未知。

🎯 应用场景

该研究成果可应用于各种需要高质量中文文本数据的场景,例如特定领域的大语言模型训练、安全可靠的对话系统构建、以及舆情分析和内容审核等。细粒度信息能够帮助研究人员更好地控制模型的行为,提升模型的性能和安全性。

📄 摘要(原文)

During the development of large language models (LLMs), pre-training data play a critical role in shaping LLMs' capabilities. In recent years several large-scale and high-quality pre-training datasets have been released to accelerate the research of LLMs, including ChineseWebText1.0, C4, Pile, WanJuan, MAPCC and others. However, as LLMs continue to evolve, focus has increasingly shifted to domain-specific capabilities and safety concerns, making those previous coarse-grained texts insufficient for meeting training requirements. Furthermore, fine-grained information, such as quality, domain and toxicity, is becoming increasingly important in building powerful and reliable LLMs for various scenarios. To address these challenges, in this paper we propose a new tool-chain called MDFG-tool for constructing large-scale and high-quality Chinese datasets with multi-dimensional and fine-grained information. First, we employ manually crafted rules to discard explicit noisy texts from raw contents. Second, the quality evaluation model, domain classifier, and toxicity evaluation model are well-designed to assess the remaining cleaned data respectively. Finally, we integrate these three types of fine-grained information for each text. With this approach, we release the largest, high-quality and fine-grained Chinese text ChineseWebText2.0, which consists of 3.8TB and each text is associated with a quality score, domain labels, a toxicity label and a toxicity score, facilitating the LLM researchers to select data based on various types of fine-grained information. The data, codes and the tool-chain are available on this website https://github.com/CASIA-LM/ChineseWebText-2.0