OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
作者: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
分类: cs.CL
发布日期: 2025-01-14
备注: The datasets are available on https://huggingface.co/collections/opencsg/chinese-fineweb-66cfed105f502ece8f29643e ; The code is on https://github.com/yuyijiong/fineweb-edu-chinese
💡 一句话要点
OpenCSG中文语料库:为中文LLM训练提供高质量数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 中文语料库 大型语言模型 预训练 后训练 微调 数据集构建 知识密集型数据 聊天数据
📋 核心要点
- 中文LLM面临高质量训练数据稀缺的挑战,限制了其性能。
- OpenCSG中文语料库通过构建一系列高质量、多样化的中文数据集来解决此问题。
- 实验表明,使用OpenCSG语料库训练的模型在C-Eval等任务上取得了显著的性能提升。
📝 摘要(中文)
大型语言模型(LLM)展现了卓越的能力,但其成功很大程度上依赖于预训练语料库的质量。对于中文LLM而言,高质量中文数据集的稀缺性构成了一个重大挑战,常常限制其性能。为了解决这个问题,我们提出了OpenCSG中文语料库,这是一系列专门为LLM预训练、后训练和微调设计的高质量数据集。该语料库包括Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese和Smoltalk-chinese,每个数据集都具有独特的特征:Fineweb-edu数据集侧重于从各种中文网络来源中过滤出的高质量内容;Cosmopedia-chinese提供合成的、教科书风格的数据,用于知识密集型训练;Smoltalk-chinese强调风格化和多样化的聊天格式数据。OpenCSG中文语料库的特点是高质量的文本、跨领域的广泛覆盖以及可扩展、可复现的数据管理流程。此外,我们进行了广泛的实验分析,包括对较小参数模型的评估,这些评估表明在C-Eval等任务中性能得到了显著提高,证明了该语料库对于训练中文LLM的有效性。
🔬 方法详解
问题定义:现有中文大型语言模型(LLM)的训练受到高质量中文语料库匮乏的限制。网络上存在大量中文数据,但质量参差不齐,直接使用会影响模型的性能。因此,如何构建高质量、多样化的中文语料库是当前面临的关键问题。
核心思路:OpenCSG中文语料库的核心思路是针对LLM训练的不同阶段(预训练、后训练、微调)设计不同的数据集,每个数据集侧重于特定的数据特征。通过结合过滤、合成等多种数据生成方法,确保语料库的质量和多样性。
技术框架:OpenCSG中文语料库包含四个主要数据集:Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese和Smoltalk-chinese。Fineweb-edu系列通过过滤高质量的中文网页内容来构建;Cosmopedia-chinese使用合成数据生成教科书风格的知识密集型数据;Smoltalk-chinese则侧重于生成风格多样化的聊天数据。整个流程包括数据收集、清洗、过滤、合成等多个阶段,并采用可扩展、可复现的数据管理流程。
关键创新:OpenCSG中文语料库的关键创新在于其针对LLM训练的不同需求,设计了不同类型的数据集。例如,Cosmopedia-chinese通过合成数据来补充知识密集型数据,Smoltalk-chinese则通过模拟聊天场景来提高模型的对话能力。这种针对性的数据构建方法能够更有效地提升LLM的性能。
关键设计:Fineweb-edu系列数据集的关键设计在于其高质量网页内容的过滤策略,具体过滤策略未知。Cosmopedia-chinese数据集的关键设计在于其合成数据的生成方法,具体方法未知。Smoltalk-chinese数据集的关键设计在于其聊天场景的模拟方式,具体方法未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用OpenCSG中文语料库训练的较小参数模型在C-Eval任务上取得了显著的性能提升。具体提升幅度未知,但证明了该语料库对于训练中文LLM的有效性。该语料库的质量和多样性使其能够有效地提升模型的性能。
🎯 应用场景
OpenCSG中文语料库可广泛应用于中文大型语言模型的预训练、后训练和微调,提升模型在各种中文自然语言处理任务中的性能,例如文本生成、知识问答、对话系统等。该语料库的发布将促进中文LLM的发展,并推动相关技术的应用。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable capabilities, but their success heavily relies on the quality of pretraining corpora. For Chinese LLMs, the scarcity of high-quality Chinese datasets presents a significant challenge, often limiting their performance. To address this issue, we propose the OpenCSG Chinese Corpus, a series of high-quality datasets specifically designed for LLM pretraining, post-training, and fine-tuning. This corpus includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets focus on filtered, high-quality content derived from diverse Chinese web sources; Cosmopedia-chinese provides synthetic, textbook-style data for knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its high-quality text, diverse coverage across domains, and scalable, reproducible data curation processes. Additionally, we conducted extensive experimental analyses, including evaluations on smaller parameter models, which demonstrated significant performance improvements in tasks such as C-Eval, showcasing the effectiveness of the corpus for training Chinese LLMs.