TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining

作者: Jeffrey Li, Mohammadreza Armandpour, Iman Mirzadeh, Sachin Mehta, Vaishaal Shankar, Raviteja Vemulapalli, Samy Bengio, Oncel Tuzel, Mehrdad Farajtabar, Hadi Pouransari, Fartash Faghri

分类: cs.LG, cs.CL

发布日期: 2025-04-02 (更新: 2025-06-06)

备注: Code available at: https://github.com/apple/ml-tic-lm

💡 一句话要点

提出TiC-LM：一个用于时间持续LLM预训练的网络规模基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 持续学习 大型语言模型 时间持续预训练 网络规模数据集 自回归元调度

📋 核心要点

现有LLM训练数据陈旧，无法及时反映最新信息，需要研究时间持续学习方法。
论文提出使用自回归元调度和固定比例旧数据重放，以在持续学习中平衡新旧知识。
实验表明，该方法在通用数据上能以更少计算量达到与重训练相当的性能，但在特定领域效果不同。

📝 摘要（中文）

大型语言模型(LLMs)在历史网络数据上训练，不可避免地会过时。本文研究了LLMs在获得新数据时的评估策略和更新方法。我们引入了一个网络规模的数据集，用于LLMs的时间持续预训练，该数据集来自114个Common Crawl (CC)转储，比以前的持续语言建模基准大几个数量级。我们还设计了跨通用CC数据和特定领域（维基百科、StackExchange和代码文档）的时间分层评估，以评估各种持续学习方法在适应新数据同时保留过去知识方面的效果。我们的研究结果表明，在通用CC数据上，自回归元调度与固定比例的旧数据重放相结合，可以实现与从头开始重新训练相当的held-out损失，同时显著减少计算量（2.6倍）。然而，结合新数据和重放旧数据之间的最佳平衡是不同的，因为重放对于避免通用网络数据上的遗忘至关重要，但在特定领域则不那么重要。

🔬 方法详解

问题定义：大型语言模型（LLMs）在静态数据集上训练后，无法及时反映最新的信息，导致模型知识过时。现有的持续学习方法在网络规模的数据上进行时间持续预训练时，面临着数据量巨大、计算成本高昂以及如何有效平衡新旧知识的挑战。如何设计有效的评估策略和更新方法，使LLMs能够适应不断变化的数据分布，同时保留已有的知识，是本文要解决的核心问题。

核心思路：论文的核心思路是结合自回归元调度和固定比例的旧数据重放，以实现高效的时间持续预训练。自回归元调度允许模型根据时间步动态调整学习率，从而更好地适应新数据。同时，通过固定比例的旧数据重放，可以帮助模型保留已有的知识，避免灾难性遗忘。这种方法旨在在计算成本和模型性能之间找到一个最佳平衡点。

技术框架：该研究的技术框架主要包括以下几个部分：首先，构建一个大规模的时间持续预训练数据集，该数据集来自114个Common Crawl转储，并按照时间顺序进行组织。其次，设计时间分层的评估策略，包括通用CC数据和特定领域数据（如维基百科、StackExchange和代码文档）。然后，采用自回归元调度和固定比例旧数据重放的持续学习方法对LLMs进行预训练。最后，通过时间分层评估来评估模型的性能，并与从头开始重新训练的模型进行比较。

关键创新：该论文的关键创新点在于：1) 提出了一个网络规模的时间持续预训练基准数据集TiC-LM，该数据集比以往的基准数据集大几个数量级。2) 结合自回归元调度和固定比例旧数据重放，提出了一种高效的持续学习方法，可以在通用数据上以更少的计算量达到与重训练相当的性能。3) 设计了时间分层的评估策略，可以更全面地评估模型在不同时间段和不同领域上的性能。

关键设计：在关键设计方面，论文采用了自回归元调度来动态调整学习率，具体实现细节未知。固定比例旧数据重放的关键在于选择合适的重放比例，论文通过实验来确定最佳的重放比例。此外，论文还采用了标准Transformer架构作为LLM的基础模型，并使用交叉熵损失函数进行训练。具体参数设置和网络结构细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在通用CC数据上，自回归元调度与固定比例的旧数据重放相结合，可以实现与从头开始重新训练相当的held-out loss，同时显著减少计算量（2.6倍）。这表明该方法在计算效率方面具有显著优势。然而，在特定领域，重放旧数据的重要性降低，这表明需要根据不同的数据分布调整持续学习策略。

🎯 应用场景

该研究成果可应用于需要持续学习的LLM应用场景，例如智能客服、搜索引擎、新闻推荐等。通过持续学习，LLM可以及时获取最新的信息，提高回答的准确性和相关性。此外，该研究提出的评估策略和基准数据集，可以为持续学习领域的研究提供参考。

📄 摘要（原文）

Large Language Models (LLMs) trained on historical web data inevitably become outdated. We investigate evaluation strategies and update methods for LLMs as new data becomes available. We introduce a web-scale dataset for time-continual pretraining of LLMs derived from 114 dumps of Common Crawl (CC) - orders of magnitude larger than previous continual language modeling benchmarks. We also design time-stratified evaluations across both general CC data and specific domains (Wikipedia, StackExchange, and code documentation) to assess how well various continual learning methods adapt to new data while retaining past knowledge. Our findings demonstrate that, on general CC data, autoregressive meta-schedules combined with a fixed-ratio replay of older data can achieve comparable held-out loss to re-training from scratch, while requiring significantly less computation (2.6x). However, the optimal balance between incorporating new data and replaying old data differs as replay is crucial to avoid forgetting on generic web data but less so on specific domains.

TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理