Open Artificial Knowledge
作者: Vadim Borisov, Richard H. Schreiber
分类: cs.CL, cs.LG
发布日期: 2024-07-19
💡 一句话要点
提出Open Artificial Knowledge (OAK)数据集,解决LLM训练数据稀缺问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数据集 自监督学习 知识图谱 数据生成 自然语言处理 开放资源
📋 核心要点
- 现有LLM训练面临高质量、多样化和符合伦理的数据获取难题,限制了模型性能提升。
- OAK数据集利用多个先进LLM,在维基百科类别指导下生成文本,保证知识覆盖和准确性。
- OAK数据集旨在促进更强大的语言模型发展,解决数据稀缺和隐私问题,并已开源。
📝 摘要(中文)
本文介绍了Open Artificial Knowledge (OAK)数据集,这是一个大规模资源,目前包含超过5亿个token。该数据集旨在解决高质量、多样化和符合伦理的LLM训练数据获取难题。OAK利用包括GPT4o、LLaMa3-70B、LLaMa3-8B、Mixtral-8x7B、Gemma-7B和Gemma-2-9B在内的多个先进LLM,在维基百科主要类别的指导下生成高质量文本,确保广泛的知识覆盖、连贯性和事实准确性。OAK数据集旨在促进更强大和对齐的语言模型的发展,同时解决LLM训练中的数据稀缺和隐私等关键问题,并且可以在www.oakdataset.org上免费获取。
🔬 方法详解
问题定义:当前大型语言模型(LLM)的训练依赖于海量数据集,但获取高质量、多样化且符合伦理规范的训练数据仍然是一个巨大的挑战。现有的数据集可能存在知识覆盖不全面、数据偏差、隐私问题以及获取成本高等痛点,限制了LLM的性能和可靠性。
核心思路:OAK数据集的核心思路是利用多个最先进的LLM(如GPT4o、LLaMa3等)作为数据生成器,通过维基百科的主要类别作为指导,生成覆盖广泛知识领域的高质量文本。这种方法旨在克服人工标注成本高昂、数据规模受限等问题,同时保证生成数据的连贯性和事实准确性。
技术框架:OAK数据集的生成流程主要包括以下几个阶段:1) 选择维基百科的主要类别作为知识领域的指导;2) 利用多个LLM(GPT4o, LLaMa3-70B, LLaMa3-8B, Mixtral-8x7B, Gemma-7B, Gemma-2-9B)根据选定的类别生成文本;3) 对生成的文本进行清洗和过滤,去除低质量或不符合要求的样本;4) 将清洗后的文本整理成数据集,并公开发布。
关键创新:OAK数据集的关键创新在于利用LLM自身来生成训练数据,从而突破了传统数据获取方式的限制。与人工标注或爬取网络数据相比,这种方法可以更高效地生成大规模、多样化的数据集,并且可以通过控制生成过程来保证数据的质量和一致性。此外,OAK数据集还强调了伦理规范,力求避免生成包含偏见或有害信息的数据。
关键设计:OAK数据集的关键设计包括:1) 选择多个LLM作为数据生成器,以增加数据的多样性;2) 使用维基百科的主要类别作为指导,以保证知识覆盖的广泛性;3) 采用严格的数据清洗和过滤流程,以提高数据的质量;4) 公开发布数据集,以促进LLM研究的开放性和可重复性。具体的参数设置和损失函数等技术细节取决于所使用的LLM模型。
🖼️ 关键图片
📊 实验亮点
OAK数据集目前包含超过5亿个token,并且还在不断扩展。通过利用多个先进LLM生成数据,OAK数据集在保证数据规模的同时,也兼顾了数据的质量和多样性。该数据集的开源发布将为LLM研究提供宝贵的资源,并有望推动相关技术的快速发展。
🎯 应用场景
OAK数据集可广泛应用于LLM的预训练、微调和评估。它可以帮助研究人员和开发者构建更强大、更可靠、更符合伦理规范的语言模型,并促进自然语言处理领域的进步。此外,OAK数据集还可以用于开发各种下游应用,如智能助手、机器翻译、文本摘要等。
📄 摘要(原文)
The tremendous success of chat-based AI systems like ChatGPT, Claude, and Gemini stems from Large Language Models (LLMs) trained on vast amount of datasets. However, acquiring high-quality, diverse, and ethically sourced training data remains a significant challenge. We introduce the Open Artificial Knowledge (OAK) dataset, a large-scale resource of over 500 million tokens (at the moment of writing) designed to address this issue. OAK leverages an ensemble of state-of-the-art LLMs, including GPT4o, LLaMa3-70B, LLaMa3-8B, Mixtral-8x7B, Gemma-7B, and Gemma-2-9B , to generate high-quality text across diverse domains, guided by Wikipedia's main categories. Our methodology ensures broad knowledge coverage while maintaining coherence and factual accuracy. The OAK dataset aims to foster the development of more capable and aligned language models while addressing critical issues of data scarcity and privacy in LLM training, and it is freely available on www.oakdataset.org.