CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models

作者: Jiawei Gu, Zacc Yang, Chuanghao Ding, Rui Zhao, Fei Tan

分类: cs.CL, cs.LG

发布日期: 2024-07-24 (更新: 2024-10-07)

备注: EMNLP 2024 main conference

💡 一句话要点

提出CMR缩放定律，预测持续预训练中语言模型的关键混合比例，优化训练效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 持续预训练 语言模型 缩放定律 混合比例 领域迁移

📋 核心要点

现有持续预训练方法在选择通用语料和领域语料的混合比例时，依赖启发式方法，导致训练效率低下。
论文提出关键混合比例(CMR)的概念，通过平衡通用能力和领域特定能力，实现最佳的资源利用率。
实验验证了CMR的可预测性和泛化性，并提出了CMR缩放定律，为优化LLM训练提供了指导。

📝 摘要（中文）

大型语言模型(LLM)在各种任务中表现出色，但由于领域特定或专有语料库的限制，在专业领域通常表现不佳。持续预训练(CPT)通过注入新的领域特定或专有知识，同时回放通用语料库以防止灾难性遗忘，从而增强LLM的能力。然而，通用语料库和领域特定语料库的数据混合比例通常是启发式选择的，导致实践中训练效率低下。为此，我们尝试重新审视CPT下LLM的缩放行为，并发现损失、混合比例和训练tokens规模之间的幂律关系。我们形式化了通用能力和领域特定能力之间的权衡，从而得到了通用数据和领域数据的明确的关键混合比例(CMR)。通过平衡，CMR保持了模型的一般能力，并实现了所需的领域迁移，确保了可用资源的最高利用率。考虑到效率和效果之间的平衡，CMR可以被认为是最佳混合比例。通过大量的实验，我们确定了CMR的可预测性，提出了CMR缩放定律，并证实了其泛化性。这些发现为优化专业领域LLM训练提供了实用的指导，确保了一般和领域特定的性能，同时有效地管理训练资源。

🔬 方法详解

问题定义：论文旨在解决持续预训练（CPT）中通用语料和领域语料混合比例选择不当导致训练效率低下的问题。现有方法通常采用启发式搜索或人工经验来确定混合比例，缺乏理论指导，难以保证模型在通用能力和领域能力之间的平衡，导致资源浪费和性能下降。

核心思路：论文的核心思路是揭示CPT过程中损失、混合比例和训练tokens规模之间的关系，并基于此关系推导出关键混合比例（CMR）。CMR旨在平衡模型在通用能力和领域能力之间的权衡，使得模型在保持通用能力的同时，能够有效地迁移到目标领域。通过预测CMR，可以避免盲目搜索混合比例，提高训练效率和模型性能。

技术框架：论文的技术框架主要包括以下几个部分：1) 通过实验观察CPT过程中损失、混合比例和训练tokens规模之间的关系；2) 基于实验结果，建立损失、混合比例和训练tokens规模之间的数学模型，即CMR缩放定律；3) 利用CMR缩放定律预测最佳混合比例，并将其应用于实际的CPT任务中；4) 通过实验验证CMR缩放定律的有效性和泛化性。

关键创新：论文最重要的技术创新点在于提出了CMR缩放定律，该定律描述了CPT过程中损失、混合比例和训练tokens规模之间的幂律关系。与现有方法相比，CMR缩放定律提供了一种理论指导，可以用于预测最佳混合比例，从而避免了盲目搜索和人工经验的依赖。此外，论文还形式化了通用能力和领域能力之间的权衡，为CPT任务提供了一种新的视角。

关键设计：论文的关键设计包括：1) 采用幂律函数来描述损失、混合比例和训练tokens规模之间的关系；2) 定义了关键混合比例（CMR），作为平衡通用能力和领域能力的指标；3) 通过大量的实验验证了CMR缩放定律的有效性和泛化性。具体的参数设置和损失函数等技术细节在论文中进行了详细描述，但此处无法完全展开。

🖼️ 关键图片

📊 实验亮点

论文通过大量实验验证了CMR缩放定律的有效性和泛化性。实验结果表明，利用CMR缩放定律预测的混合比例能够显著提高模型在目标领域的性能，同时保持良好的通用能力。具体性能提升数据和对比基线在论文中有详细展示，证明了CMR方法的优越性。

🎯 应用场景

该研究成果可广泛应用于各种需要领域知识增强的LLM训练场景，例如金融、医疗、法律等专业领域。通过预测关键混合比例，可以优化训练资源分配，提高模型在特定领域的性能，并加速LLM在垂直行业的落地。此外，该研究也为持续学习和终身学习等相关领域提供了新的思路。

📄 摘要（原文）

Large Language Models (LLMs) excel in diverse tasks but often underperform in specialized fields due to limited domain-specific or proprietary corpus. Continual pre-training (CPT) enhances LLM capabilities by imbuing new domain-specific or proprietary knowledge while replaying general corpus to prevent catastrophic forgetting. The data mixture ratio of general corpus and domain-specific corpus, however, has been chosen heuristically, leading to sub-optimal training efficiency in practice. In this context, we attempt to re-visit the scaling behavior of LLMs under the hood of CPT, and discover a power-law relationship between loss, mixture ratio, and training tokens scale. We formalize the trade-off between general and domain-specific capabilities, leading to a well-defined Critical Mixture Ratio (CMR) of general and domain data. By striking the balance, CMR maintains the model's general ability and achieves the desired domain transfer, ensuring the highest utilization of available resources. Considering the balance between efficiency and effectiveness, CMR can be regarded as the optimal mixture ratio. Through extensive experiments, we ascertain the predictability of CMR, propose CMR scaling law and have substantiated its generalization. These findings offer practical guidelines for optimizing LLM training in specialized domains, ensuring both general and domain-specific performance while efficiently managing training resources.

CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理