Toward Cross-Lingual Quality Classifiers for Multilingual Pretraining Data Selection

📄 arXiv: 2604.20549v1 📥 PDF

作者: Yassine Turki, Vinko Sabolčec, Bettina Messmer, Martin Jaggi

分类: cs.CL, cs.AI

发布日期: 2026-04-22

备注: Accepted at the 3rd Workshop on Navigating and Addressing Data Problems for Foundation Models (DATA-FM @ ICLR 2026). 31 pages, 4 figures


💡 一句话要点

提出跨语言质量分类器,用于多语言预训练数据选择,提升低资源语言模型质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言预训练 数据选择 质量分类器 跨语言迁移 低资源语言

📋 核心要点

  1. 高质量数据对大型语言模型至关重要,但低资源语言缺乏足够的训练数据。
  2. 论文提出利用高资源语言的质量信息,通过跨语言迁移提升低资源语言数据过滤效果。
  3. 实验表明,大规模多语言池化能提升高资源语言性能,并匹配或超过低资源语言的单语基线。

📝 摘要(中文)

随着大型语言模型(LLMs)规模的扩大,数据管理已从最大化数据量转变为通过执行质量过滤来优化信噪比。然而,对于许多语言来说,本地高质量数据不足以训练鲁棒的质量分类器。本文研究了嵌入空间中的质量标记可能表现出跨语言一致性的想法,这将允许高资源语言支持低资源语言的过滤。我们评估了各种过滤策略,包括跨语言迁移、第三四分位数抽样(Q3)和保留率调整。我们的结果表明,大规模多语言池化在rank稳定性和总体准确性方面通常优于单语基线,对于在103B tokens上训练的1B模型,为高资源语言带来收益(法语的总体标准化准确率提高1.2%),并匹配或超过低资源语言的单语基线。然而,我们发现仅靠规模并不能保证稳定性。此外,对于像法语这样的高资源语言,我们表明,通过第三四分位数抽样(Q3)或调整保留率来细化决策边界对于充分利用多语言信号是必要的。

🔬 方法详解

问题定义:现有方法在为低资源语言的大型语言模型选择预训练数据时,面临高质量数据不足的挑战。直接使用低质量数据训练会导致模型性能下降。现有的单语质量分类器无法有效应用于低资源语言,因为缺乏足够的本地高质量训练数据。

核心思路:论文的核心思路是利用不同语言在嵌入空间中可能存在的质量一致性。假设高质量文本在不同语言中具有相似的嵌入表示,那么可以使用高资源语言训练的质量分类器来过滤低资源语言的数据。这种跨语言迁移可以有效解决低资源语言数据稀缺的问题。

技术框架:整体框架包括以下几个主要阶段:1) 使用多语言语料库训练语言模型,获得文本的嵌入表示。2) 使用高资源语言的数据训练质量分类器,该分类器能够区分高质量和低质量的文本。3) 将训练好的质量分类器应用于低资源语言的数据,根据分类器的输出对数据进行过滤。4) 使用过滤后的数据训练目标语言模型。论文还探索了第三四分位数抽样(Q3)和保留率调整等策略,以进一步优化过滤效果。

关键创新:最重要的技术创新点在于发现了跨语言质量一致性,并将其应用于多语言预训练数据的选择。与传统的单语数据过滤方法相比,该方法能够有效利用高资源语言的信息,提升低资源语言模型的性能。此外,论文还提出了第三四分位数抽样(Q3)和保留率调整等策略,以进一步优化跨语言迁移的效果。

关键设计:论文中,质量分类器可以使用各种机器学习模型,例如逻辑回归、支持向量机或神经网络。关键在于选择合适的特征来表示文本的质量,例如文本的复杂度、流畅度、信息量等。损失函数通常采用交叉熵损失函数,用于衡量分类器的预测结果与真实标签之间的差异。第三四分位数抽样(Q3)是指保留质量得分高于第三四分位数的样本,而保留率调整则是通过调整保留样本的比例来优化过滤效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大规模多语言池化在rank稳定性和总体准确性方面通常优于单语基线。对于在103B tokens上训练的1B模型,法语的总体标准化准确率提高了1.2%,并且低资源语言的性能匹配或超过了单语基线。此外,通过第三四分位数抽样(Q3)或调整保留率,可以进一步提升高资源语言的性能。

🎯 应用场景

该研究成果可广泛应用于多语言大型语言模型的预训练数据选择,尤其是在低资源语言场景下。通过跨语言质量过滤,可以有效提升模型的性能和鲁棒性,降低训练成本。此外,该方法还可以应用于机器翻译、跨语言信息检索等领域,具有重要的实际应用价值。

📄 摘要(原文)

As Large Language Models (LLMs) scale, data curation has shifted from maximizing volume to optimizing the signal-to-noise ratio by performing quality filtering. However, for many languages, native high quality data is insufficient to train robust quality classifiers. This work investigates the idea that quality markers in embedding space may show cross-lingual consistency, which would allow high-resource languages to subsidize the filtering of low-resource ones. We evaluate various filtering strategies, including cross-lingual transfer, third quartile sampling (Q3), and retention rate tuning. Our results demonstrate that massive multilingual pooling frequently outperforms monolingual baselines in both rank stability and aggregate accuracy for a 1B model trained on 103B tokens, delivering gains for high resource languages (1.2% increase in aggregate normalized accuracy for French) and matching or exceeding monolingual baselines for low-resource languages. However, we find that scale alone does not guarantee stability. Furthermore, for high-resource languages like French, we show that refining the decision boundary through third quartile sampling (Q3) or tuning the retention rate is necessary to fully leverage the multilingual signal.