The KL3M Data Project: Copyright-Clean Training Resources for Large Language Models
作者: Michael J Bommarito, Jillian Bommarito, Daniel Martin Katz
分类: cs.CL, cs.AI
发布日期: 2025-04-10
备注: 27 pages, 7 figures, 9 table
💡 一句话要点
KL3M数据项目:构建版权清晰的大语言模型训练资源
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 训练数据 版权合规 数据管道 开源数据
📋 核心要点
- 当前大语言模型训练面临版权和许可不确定性带来的法律风险,影响模型的可持续发展。
- KL3M项目旨在构建一个版权清晰的大规模训练数据集,降低法律风险,促进AI的合规发展。
- 该项目发布了包含1.32亿文档的语料库及相关工具链,并以CC-BY许可免费提供给公众使用。
📝 摘要(中文)
几乎所有大型语言模型都使用存在版权侵权和违约相关全球不确定性的数据进行预训练。这给用户和开发者带来了潜在风险。KL3M数据项目通过引入最大的综合训练数据管道来直接解决这个关键问题,该管道最大限度地降低了与版权或违约相关的风险。该项目的基础是一个包含超过1.32亿份文档和数万亿个token的语料库,涵盖16个不同的来源,这些来源已经过验证,符合本文详述的严格版权和许可协议。我们发布整个管道,包括1) 获取和处理这些文档的源代码,2) 带有相关来源和元数据的原始文档格式,3) 标准化格式的提取内容,4) 文档的预token化表示,以及 5) 各种训练中期和后期资源,如问答、摘要、转换、起草、分类、预测和对话数据。所有这些资源都可以在S3、Hugging Face和GitHub上以CC-BY条款免费提供给公众。我们致力于继续推进该项目,以促进更道德、合法和可持续的AI模型开发和使用方法。
🔬 方法详解
问题定义:现有的大型语言模型通常使用来自互联网的大量数据进行训练,这些数据往往存在版权问题和许可协议的不确定性。这使得模型的开发者和使用者面临潜在的法律风险,阻碍了AI技术的健康发展。因此,需要构建一个版权清晰、来源可靠的大规模训练数据集,以降低法律风险,促进AI的合规发展。
核心思路:KL3M项目的核心思路是构建一个完全符合版权和许可协议的大规模数据集,并提供完整的工具链,包括数据获取、处理、预token化和训练后处理等。通过严格的版权审查和许可协议管理,确保数据的合法性和可追溯性,从而降低模型的法律风险。
技术框架:KL3M项目的技术框架主要包括以下几个阶段:1) 数据源选择:选择16个不同的数据来源,包括书籍、学术论文、政府文件等,确保数据的多样性和覆盖范围。2) 版权审查:对每个数据来源进行严格的版权审查,确保数据的使用符合相关的版权和许可协议。3) 数据处理:对原始文档进行清洗、提取和标准化处理,将其转换为统一的格式。4) 预token化:使用预训练的tokenizers将文本数据转换为token序列,以便于模型的训练。5) 资源发布:将处理后的数据、工具链和相关资源发布到S3、Hugging Face和GitHub等平台上,供公众免费使用。
关键创新:KL3M项目的关键创新在于构建了一个大规模、版权清晰、来源可靠的训练数据集,并提供了完整的工具链。与以往的研究相比,KL3M项目更加注重数据的合法性和可追溯性,从而降低了模型的法律风险。此外,KL3M项目还提供了各种训练中期和后期资源,如问答、摘要、转换等,为模型的开发和应用提供了更多的可能性。
关键设计:KL3M项目在数据源选择方面,注重数据的多样性和覆盖范围,选择了16个不同的数据来源,包括书籍、学术论文、政府文件等。在版权审查方面,采用了严格的版权审查流程,确保数据的使用符合相关的版权和许可协议。在数据处理方面,采用了标准化的数据处理流程,将原始文档转换为统一的格式。在资源发布方面,采用了CC-BY许可协议,允许公众免费使用和修改数据和工具链。
🖼️ 关键图片
📊 实验亮点
KL3M项目构建了一个包含1.32亿文档和数万亿token的语料库,涵盖16个不同的数据来源,并经过严格的版权审查。该项目发布了完整的数据处理管道和各种训练资源,所有资源均以CC-BY许可免费提供给公众使用。这为大语言模型的研究和开发提供了一个高质量、低风险的数据基础。
🎯 应用场景
该研究成果可广泛应用于大语言模型的预训练和微调,尤其适用于对法律合规性有较高要求的场景,如金融、法律、医疗等领域。通过使用KL3M项目提供的数据和工具,可以降低模型开发和使用的法律风险,促进AI技术在各个领域的安全和可持续发展。未来,该项目有望成为大语言模型训练数据的重要来源。
📄 摘要(原文)
Practically all large language models have been pre-trained on data that is subject to global uncertainty related to copyright infringement and breach of contract. This creates potential risk for users and developers due to this uncertain legal status. The KL3M Data Project directly confronts this critical issue by introducing the largest comprehensive training data pipeline that minimizes risks related to copyright or breach of contract. The foundation of this project is a corpus of over 132 million documents and trillions of tokens spanning 16 different sources that have been verified to meet the strict copyright and licensing protocol detailed herein. We are releasing the entire pipeline, including 1) the source code to acquire and process these documents, 2) the original document formats with associated provenance and metadata, 3) extracted content in a standardized format, 4) pre-tokenized representations of the documents, and 5) various mid- and post-train resources such as question-answer, summarization, conversion, drafting, classification, prediction, and conversational data. All of these resources are freely available to the public on S3, Hugging Face, and GitHub under CC-BY terms. We are committed to continuing this project in furtherance of a more ethical, legal, and sustainable approach to the development and use of AI models.