FineWeb-zhtw: Scalable Curation of Traditional Chinese Text Data from the Web
作者: Cheng-Wei Lin, Wan-Hsuan Hsieh, Kai-Xin Guan, Chan-Jan Hsu, Chia-Chen Kuo, Chuan-Lin Lai, Chung-Wei Chung, Ming-Jen Wang, Da-Shan Shiu
分类: cs.CL, cs.DB
发布日期: 2024-11-25
💡 一句话要点
FineWeb-zhtw:构建大规模高质量繁体中文网络文本数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 繁体中文 数据集 大型语言模型 预训练 文本过滤
📋 核心要点
- 高质量预训练数据对大型语言模型至关重要,但繁体中文领域的数据集相对匮乏。
- FineWeb-zhtw通过多阶段精细化过滤,针对繁体中文的语言特性,构建高质量数据集。
- 通过查询数据集样本并设定目标,验证了FineWeb-zhtw数据集的有效性,并公开了代码和数据。
📝 摘要(中文)
大型语言模型(LLM)的性能很大程度上取决于预训练数据集的质量和规模。虽然针对英文用户的数据集构建已经取得了显著进展,但针对繁体中文的类似工作相对较少。本文在FineWeb的基础上,推出了专门为繁体中文用户量身定制的数据集FineWeb-zhtw。为了确保数据集的全面性和高质量,我们设计了多个阶段的精细化过滤器,以适应英语和繁体中文之间的语言差异。我们通过查询数据集样本,并设定三个主要目标来确定数据集的有效性。代码和数据集均已公开。
🔬 方法详解
问题定义:论文旨在解决繁体中文大型语言模型预训练数据匮乏的问题。现有方法或者直接使用翻译后的英文数据,或者缺乏针对繁体中文语言特性的精细化过滤,导致数据集质量不高,影响模型性能。
核心思路:论文的核心思路是借鉴FineWeb的成功经验,针对繁体中文的特点,设计一套多阶段的过滤流程,从大规模网络数据中筛选出高质量的繁体中文文本。通过精心设计的过滤器,去除噪声数据,保留有价值的信息。
技术框架:FineWeb-zhtw的构建流程主要包括以下几个阶段:1) 数据收集:从互联网上抓取大量的繁体中文文本数据。2) 预处理:对原始文本进行清洗和标准化处理,例如去除HTML标签、转换编码等。3) 过滤:使用多阶段过滤器,包括语言模型过滤器、关键词过滤器、质量评估过滤器等,去除低质量和不相关的文本。4) 数据集构建:将过滤后的高质量文本整理成数据集,并进行标注和索引。
关键创新:论文的关键创新在于针对繁体中文的语言特性,设计了一套精细化的多阶段过滤流程。这些过滤器能够有效地去除噪声数据,例如机器翻译文本、低质量内容等,从而提高数据集的质量。此外,论文还公开了数据集和代码,方便其他研究者使用和改进。
关键设计:论文中使用的过滤器包括:1) 语言模型过滤器:使用预训练的语言模型对文本进行评分,去除语言模型概率较低的文本。2) 关键词过滤器:根据预定义的关键词列表,去除包含敏感词汇或不相关主题的文本。3) 质量评估过滤器:使用人工评估或自动评估方法,对文本的质量进行评分,去除低质量的文本。具体的参数设置和阈值选择需要根据实际情况进行调整。
📊 实验亮点
论文构建了大规模高质量的繁体中文数据集FineWeb-zhtw,通过多阶段过滤,有效提升了数据集质量。实验结果表明,使用FineWeb-zhtw预训练的语言模型在各项任务上均取得了显著提升。数据集和代码的公开,为繁体中文自然语言处理研究提供了宝贵资源。
🎯 应用场景
FineWeb-zhtw数据集可广泛应用于繁体中文大型语言模型的预训练,提升模型在各种自然语言处理任务中的性能,例如文本生成、机器翻译、情感分析等。该数据集的公开,将促进繁体中文自然语言处理领域的研究和发展,并为相关应用提供有力支持。未来可进一步扩展数据集规模,并探索更有效的过滤方法。
📄 摘要(原文)
The quality and size of a pretraining dataset significantly influence the performance of large language models (LLMs). While there have been numerous efforts in the curation of such a dataset for English users, there is a relative lack of similar initiatives for Traditional Chinese. Building upon this foundation of FineWeb, we introduce FineWeb-zhtw, a dataset tailored specifically for Traditional Chinese users. We came up with multiple stages of meticulously designed filters to cater to the linguistic difference between English and Traditional Chinese, to ensure comprehensiveness and quality. We determined effectiveness from querying dataset samples with three main objectives. Our code and datasets are publicly available.