Rethinking the Role of Text Complexity in Language Model Pretraining

📄 arXiv: 2509.16551v2 📥 PDF

作者: Dan John Velasco, Matthew Theodore Roque

分类: cs.CL, cs.AI

发布日期: 2025-09-20 (更新: 2025-10-04)

备注: Camera-ready version for BabyLM Workshop at EMNLP 2025


💡 一句话要点

研究文本复杂度对语言模型预训练的影响,揭示不同复杂度文本对下游任务的影响。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型预训练 文本复杂度 数据质量 零样本学习 迁移学习

📋 核心要点

  1. 现有研究较少关注预训练数据中文本复杂度对语言模型性能的影响,本文旨在填补这一空白。
  2. 本文通过简化文本的表面复杂度,研究不同复杂度文本对语言模型预训练和下游任务的影响。
  3. 实验表明,文本复杂度对模型容量和下游任务类型有不同影响,为数据选择提供了指导。

📝 摘要(中文)

本文探讨了预训练数据中文本复杂度的作用,通过降低文本的表面复杂度(如缩短句子、简化词汇和结构),同时保持核心内容不变,研究了以下问题:(i) 文本复杂度如何影响不同规模语言模型的建模?(ii) 能否仅从更简单的文本中学习到有用的表示?(iii) 预训练文本复杂度如何影响下游语言理解?研究人员使用大型语言模型简化人工撰写的文本,从头开始在原始数据和简化数据上预训练因果模型(28M-500M),并在微调和零样本设置中评估它们。结果表明,困惑度对模型容量和文本复杂度之间的相互作用敏感,较小模型在简单文本上的性能下降较少。文本复杂度对微调评估影响不大,但零样本评估表明,简单文本有利于语言知识任务,而复杂文本有利于需要世界知识和实体跟踪的任务。研究结果表明,不同类型的数据多样性对迁移和零样本性能有不同的影响,为根据特定目标定制数据管理提供了见解。

🔬 方法详解

问题定义:现有研究主要关注预训练数据的规模和质量,而忽略了文本复杂度这一重要因素。文本复杂度指的是文本的易读程度,现有方法缺乏对不同复杂度文本在语言模型预训练中的作用的深入理解。本文旨在研究文本复杂度如何影响语言模型的学习和泛化能力,以及如何根据下游任务选择合适的预训练数据。

核心思路:本文的核心思路是通过控制预训练数据的文本复杂度,研究其对语言模型性能的影响。具体而言,作者使用大型语言模型对原始文本进行简化,生成复杂度较低的文本,然后分别在原始文本和简化文本上预训练语言模型,并比较它们在下游任务上的表现。通过这种方式,可以分离出文本复杂度对模型性能的独立影响。

技术框架:本文的技术框架主要包括以下几个步骤:1) 使用大型语言模型简化原始文本,生成不同复杂度的预训练数据;2) 在不同复杂度的预训练数据上训练不同规模的语言模型(28M-500M);3) 在微调和零样本设置下评估预训练模型在下游任务上的表现;4) 分析文本复杂度、模型规模和下游任务类型之间的关系。

关键创新:本文的关键创新在于系统性地研究了文本复杂度对语言模型预训练的影响。以往的研究主要关注数据规模和质量,而忽略了文本复杂度这一重要因素。本文通过控制文本复杂度,揭示了其对模型性能的独立影响,并为数据选择提供了新的视角。

关键设计:在文本简化方面,作者使用大型语言模型进行自动简化,目标是降低句子的长度、词汇的复杂度和句法结构的复杂度,同时保持核心内容不变。在模型训练方面,作者使用了不同规模的因果语言模型,并采用了标准的训练方法。在评估方面,作者使用了微调和零样本两种设置,并选择了多种下游任务,以全面评估模型的性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,困惑度对模型容量和文本复杂度之间的相互作用敏感,较小模型在简单文本上的性能下降较少。在零样本评估中,简单文本有利于语言知识任务,而复杂文本有利于需要世界知识和实体跟踪的任务。这些结果表明,不同类型的数据多样性对迁移和零样本性能有不同的影响。

🎯 应用场景

该研究成果可应用于语言模型预训练数据的选择和优化,帮助研究人员根据下游任务的特点选择合适的预训练数据,从而提高模型的性能。此外,该研究还可以应用于教育领域,例如为不同年龄段的学生提供不同复杂度的阅读材料。

📄 摘要(原文)

Improving pretraining data quality and size is known to boost downstream performance, but the role of text complexity--how hard a text is to read--remains less explored. We reduce surface-level complexity (shorter sentences, simpler words, simpler structure) while keeping core content approximately constant and ask: (i) How does complexity affect language modeling across model sizes? (ii) Can useful representations be learned from simpler text alone? (iii) How does pretraining text complexity influence downstream language understanding? We simplify human-written texts using a large language model, pretrain causal models (28M-500M) from scratch on original vs. simplified data, and evaluate them in fine-tuning and zero-shot setups. We find that perplexity is sensitive to the interaction between model capacity and text complexity--smaller models degrade far less on simpler texts--while text complexity has little impact on fine-tuning evaluations, with zero-shot evaluations indicating that simpler texts benefit performance on linguistic knowledge tasks, whereas more complex texts favor tasks requiring world knowledge and entity tracking. Our findings suggest that different types of data diversity affect transfer and zero-shot performance differently, providing insight into tailoring data curation to specific goals.