Leveraging Web-Crawled Data for High-Quality Fine-Tuning

📄 arXiv: 2408.08003v1 📥 PDF

作者: Jing Zhou, Chenglin Jiang, Wei Shen, Xiao Zhou, Xiaonan He

分类: cs.CL

发布日期: 2024-08-15


💡 一句话要点

利用网络爬取数据进行高质量微调,提升特定领域大语言模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 微调 网络爬取数据 数据增强 特定领域 高质量数据 数据转换

📋 核心要点

  1. 现有大语言模型微调依赖昂贵的人工标注或GPT-4生成数据,难以保证特定领域性能。
  2. 提出一种利用网络爬取数据进行高质量微调的方法,通过数据转换提升数据质量。
  3. 实验结果表明,该方法在中文数学问题上提升显著,且7B模型性能超越更大规模开源及闭源模型。

📝 摘要(中文)

大多数大型语言模型使用昂贵的人工标注数据或GPT-4生成的数据进行微调,这无法保证在特定领域的性能。本文提出,尽管网络爬取的数据通常存在格式错误,导致语义不准确,但它仍然可以作为高质量监督微调的宝贵来源,无需依赖GPT-4等高级模型。为此,我们通过将网络爬取的数据与较小的高质量数据集对齐,自动创建一个配对训练数据集。通过在此数据集上训练语言模型,我们可以将格式不规则的网络数据转换为高质量数据。实验表明,使用模型转换后的数据进行训练可以产生更好的结果,在中文数学问题上的平均得分比仅使用高质量数据训练提高了9.4%。此外,我们的7B模型优于多个大于32B的开源模型,并超过了GPT-3.5等知名的闭源模型,突出了我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决大语言模型在特定领域微调时,高质量训练数据不足的问题。现有方法要么依赖昂贵的人工标注,要么使用GPT-4等模型生成数据,但后者无法保证特定领域的准确性,且存在数据偏见和版权风险。网络爬取数据虽然量大,但格式混乱,直接使用效果不佳。

核心思路:论文的核心思路是利用少量高质量数据作为“种子”,将格式不规范的网络爬取数据转换为高质量数据,从而构建大规模的训练集。通过训练一个模型来学习高质量数据和低质量数据之间的映射关系,实现数据质量的提升。

技术框架:整体框架包含以下几个步骤:1) 收集少量高质量数据;2) 从网络上爬取大量相关数据;3) 使用高质量数据训练一个数据转换模型;4) 使用数据转换模型将网络爬取的数据转换为高质量数据;5) 将转换后的数据与原始高质量数据混合,用于最终模型的微调。

关键创新:关键创新在于提出了一种自动化的数据增强方法,能够将低质量的网络爬取数据转换为高质量的训练数据,从而避免了人工标注的成本和GPT-4生成数据的潜在问题。这种方法能够有效利用互联网上的海量数据,提升特定领域模型的性能。

关键设计:论文的关键设计包括:数据对齐策略,如何将网络爬取的数据与高质量数据进行匹配;数据转换模型的选择,以及如何设计损失函数来训练该模型,使其能够有效地将低质量数据转换为高质量数据。具体的参数设置和网络结构在论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用该方法训练的7B模型在中文数学问题上的平均得分比仅使用高质量数据训练提高了9.4%。更重要的是,该7B模型优于多个大于32B的开源模型,并超过了GPT-3.5等知名的闭源模型,充分证明了该方法的有效性。

🎯 应用场景

该研究成果可广泛应用于各种需要特定领域知识的大语言模型微调任务,例如教育、金融、法律等领域。通过利用网络爬取数据,可以降低模型训练的成本,并提升模型在特定领域的性能。该方法有望推动大语言模型在更多实际场景中的应用。

📄 摘要(原文)

Most large language models are fine-tuned using either expensive human-annotated data or GPT-4 generated data which cannot guarantee performance in certain domains. We argue that although the web-crawled data often has formatting errors causing semantic inaccuracies, it can still serve as a valuable source for high-quality supervised fine-tuning in specific domains without relying on advanced models like GPT-4. To this end, we create a paired training dataset automatically by aligning web-crawled data with a smaller set of high-quality data. By training a language model on this dataset, we can convert web data with irregular formats into high-quality ones. Our experiments show that training with the model-transformed data yields better results, surpassing training with only high-quality data by an average score of 9.4% in Chinese math problems. Additionally, our 7B model outperforms several open-source models larger than 32B and surpasses well-known closed-source models such as GPT-3.5, highlighting the efficacy of our approach.