ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws

作者: Ruihang Li, Yixuan Wei, Miaosen Zhang, Nenghai Yu, Han Hu, Houwen Peng

分类: cs.CL

发布日期: 2024-08-15

💡 一句话要点

提出ScalingFilter，通过缩放律逆向利用评估数据质量，消除参考数据集偏差。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数据质量评估 缩放律 语言模型 预训练 零样本学习 语义多样性 无参考过滤

📋 核心要点

现有数据质量过滤方法依赖参考数据集，易引入偏差并降低数据多样性。
ScalingFilter通过比较相同数据训练的不同模型困惑度差异评估质量，无需参考数据集。
实验表明，ScalingFilter提升下游任务零样本性能，并在性能与语义多样性间取得平衡。

📝 摘要（中文）

高质量数据对于大型语言模型的预训练至关重要。然而，现有的质量过滤方法依赖于已知的高质量数据集作为参考，这可能引入潜在的偏差并损害多样性。本文提出ScalingFilter，一种新颖的方法，它基于在相同数据上训练的两个语言模型之间的困惑度差异来评估文本质量，从而消除了过滤过程中参考数据集的影响。理论分析表明，ScalingFilter等价于缩放律的逆向利用。通过在各种质量过滤器处理的相同数据源上训练具有13亿参数的模型，我们发现ScalingFilter可以提高预训练模型在下游任务中的零样本性能。为了评估质量过滤引入的偏差，我们引入了语义多样性，这是一种利用文本嵌入模型进行语义表示的指标。广泛的实验表明，语义多样性是数据集多样性的可靠指标，并且ScalingFilter在下游性能和语义多样性之间实现了最佳平衡。

🔬 方法详解

问题定义：论文旨在解决大型语言模型预训练中数据质量评估的问题。现有方法依赖于已知的优质数据集作为参考，进行数据过滤，这会引入偏差，限制模型学习的多样性，并可能导致模型在特定领域表现良好，但在其他领域泛化能力不足。因此，需要一种不依赖参考数据集，能够更客观、更全面地评估数据质量的方法。

核心思路：论文的核心思路是利用缩放律的逆向思维。缩放律表明，模型规模越大，性能越好。反过来，如果两个不同规模的模型在相同数据上训练，性能差异越大，则表明数据质量越高。ScalingFilter通过比较在相同数据上训练的两个不同规模语言模型的困惑度差异来评估数据质量，困惑度差异越大，数据质量越高。

技术框架：ScalingFilter的整体框架包括以下步骤：1) 使用待评估的数据集训练两个不同规模的语言模型（例如，一个大模型和一个小模型）。2) 使用训练好的两个模型分别计算数据集中文本的困惑度。3) 计算两个模型困惑度之间的差异。4) 根据困惑度差异对文本进行排序，困惑度差异越大，文本质量越高。5) 选择困惑度差异较大的文本作为高质量数据，用于后续的预训练。

关键创新：ScalingFilter的关键创新在于它是一种无参考的数据质量评估方法。与现有方法不同，ScalingFilter不需要依赖已知的高质量数据集作为参考，而是通过比较在相同数据上训练的两个模型的性能差异来评估数据质量。这种方法可以避免引入参考数据集带来的偏差，并能够更全面地评估数据的质量和多样性。

关键设计：ScalingFilter的关键设计包括：1) 选择合适的模型规模差异。两个模型规模差异越大，困惑度差异越明显，但计算成本也越高。需要根据实际情况选择合适的模型规模。2) 使用困惑度作为评估指标。困惑度能够反映模型对文本的理解程度，困惑度越低，模型对文本的理解越好，文本质量越高。3) 引入语义多样性指标。为了评估数据过滤引入的偏差，论文引入了语义多样性指标，该指标利用文本嵌入模型来衡量数据集的语义多样性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用ScalingFilter过滤后的数据训练的语言模型，在下游任务中取得了更好的零样本性能。例如，在某些任务上，性能提升超过5%。此外，ScalingFilter在提升模型性能的同时，还能保持数据集的语义多样性，避免引入偏差。实验还验证了语义多样性作为数据集多样性指标的有效性。

🎯 应用场景

ScalingFilter可应用于大规模语言模型的预训练数据清洗，提升模型性能和泛化能力。该方法也可用于构建特定领域的高质量数据集，例如医疗、金融等，从而训练出更专业的领域模型。此外，ScalingFilter还可用于评估现有数据集的质量，为数据选择和模型训练提供指导。

📄 摘要（原文）

High-quality data is crucial for the pre-training performance of large language models. Unfortunately, existing quality filtering methods rely on a known high-quality dataset as reference, which can introduce potential bias and compromise diversity. In this paper, we propose ScalingFilter, a novel approach that evaluates text quality based on the perplexity difference between two language models trained on the same data, thereby eliminating the influence of the reference dataset in the filtering process. An theoretical analysis shows that ScalingFilter is equivalent to an inverse utilization of scaling laws. Through training models with 1.3B parameters on the same data source processed by various quality filters, we find ScalingFilter can improve zero-shot performance of pre-trained models in downstream tasks. To assess the bias introduced by quality filtering, we introduce semantic diversity, a metric of utilizing text embedding models for semantic representations. Extensive experiments reveal that semantic diversity is a reliable indicator of dataset diversity, and ScalingFilter achieves an optimal balance between downstream performance and semantic diversity.

ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理