Beyond Repetition: Text Simplification and Curriculum Learning for Data-Constrained Pretraining

📄 arXiv: 2509.24356v1 📥 PDF

作者: Matthew Theodore Roque, Dan John Velasco

分类: cs.CL, cs.AI

发布日期: 2025-09-29

备注: To be published in BabyLM Workshop at EMNLP 2025


💡 一句话要点

针对数据受限的预训练,提出基于文本简化和课程学习的优化方法。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 预训练 文本简化 课程学习 数据增强 数据受限

📋 核心要点

  1. 现有语言模型预训练研究主要集中于大数据集,忽略了数据受限场景下的优化问题,如训练数据顺序和数据增强方式。
  2. 本文提出利用文本简化和课程学习策略,通过构建并行语料库,探索不同复杂度文本的排序方式对预训练模型性能的影响。
  3. 实验结果表明,添加简化数据能提升微调和零样本性能,小模型适合低到高复杂度排序,大模型适合交错排序。

📝 摘要(中文)

大多数关于语言模型预训练的研究都集中在大型数据集上,而数据受限情况下的优化问题仍未得到充分探索。在这些情况下,训练数据的顺序以及包含相同文本的不同版本的影响仍然未知。本文通过研究预训练中的课程学习来解决这个问题,重点关注文本复杂度的排序和通过简化进行的数据增强。我们探究:(1)简化文本是否比重用原始数据更能提高表示质量?(2)按文本复杂度排序数据是否能产生更好的表示?为了回答这些问题,我们构建了一对并行语料库,其中人工编写的段落与LLM简化的变体对齐,并测试四种数据调度方案:重复暴露、低到高复杂度、高到低复杂度以及交错。我们通过微调从样本效率的角度分析模型的表示质量,以及其在语言知识、实体跟踪、世界知识和常识推理方面的零样本性能。我们的研究结果表明,与重复暴露基线相比,添加简化数据可以提高微调和零样本性能:较小的模型受益于低到高复杂度,而较大的模型在交错排序下表现更好。

🔬 方法详解

问题定义:论文旨在解决数据受限场景下,语言模型预训练的优化问题。现有方法主要依赖大规模数据集,忽略了小数据集上的训练策略,例如如何有效利用有限的数据,以及如何安排训练数据的顺序以获得更好的模型表示。

核心思路:论文的核心思路是利用文本简化技术进行数据增强,并结合课程学习的思想,通过控制训练数据的复杂度顺序,来提高预训练模型的性能。通过简化文本,可以增加数据的多样性,并使模型更容易学习到语言的本质特征。课程学习则通过由易到难的训练方式,帮助模型更好地泛化。

技术框架:整体框架包括数据准备和模型训练两个阶段。数据准备阶段,构建并行语料库,包含原始文本和LLM简化的文本。模型训练阶段,使用不同的数据调度策略(重复暴露、低到高复杂度、高到低复杂度、交错)进行预训练,然后通过微调和零样本测试评估模型性能。

关键创新:论文的关键创新在于将文本简化和课程学习结合起来,应用于数据受限的预训练场景。以往的研究较少关注文本简化作为数据增强手段,以及不同复杂度文本排序对模型性能的影响。

关键设计:论文的关键设计包括:1) 使用LLM进行文本简化,构建高质量的并行语料库;2) 设计四种不同的数据调度策略,探索最佳的训练数据顺序;3) 通过微调和零样本测试,全面评估模型的表示质量和泛化能力。具体的参数设置和网络结构信息未知。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,与重复暴露基线相比,添加简化数据可以提高微调和零样本性能。具体来说,较小的模型受益于低到高复杂度的数据排序,而较大的模型在交错排序下表现更好。这些发现为数据受限场景下的预训练提供了有价值的指导。

🎯 应用场景

该研究成果可应用于各种数据资源有限的自然语言处理任务,例如特定领域的文本生成、机器翻译和信息抽取等。通过结合文本简化和课程学习,可以有效提升模型在小数据集上的性能,降低对大规模标注数据的依赖,具有重要的实际应用价值和推广前景。

📄 摘要(原文)

Most studies on language model pretraining focus on large datasets, leaving open questions about optimization in data-constrained settings. In such settings, the effects of training data order and of including alternative versions of the same text remain underexplored. We address this by studying curriculum learning in pretraining, focusing on text-complexity ordering and data augmentation via simplification. We ask: (1) Does simplifying texts enhance representation quality more than reusing the original data? and (2) Does ordering data by text complexity yield better representations? To answer, we build on a pair of parallel corpora where human-written paragraphs are aligned with LLM-simplified variants, and test four data schedules: repeated exposure, low-to-high complexity, high-to-low, and interleaved. We analyze models' representation quality from a sample efficiency perspective via fine-tuning, as well as its zero-shot performance on linguistic knowledge, entity tracking, world knowledge, and commonsense reasoning. Our findings show that adding simplified data improves fine-tuning and zero-shot performance over a repeated-exposure baseline: smaller models benefit from low-to-high complexity, while larger models perform better with interleaved ordering.