Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

📄 arXiv: 2603.08022v1 📥 PDF

作者: Jingwei Li, Xinran Gu, Jingzhao Zhang

分类: cs.LG

发布日期: 2026-03-09


💡 一句话要点

提出容量感知混合律CAMEL,高效优化LLM数据配比并提升性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据混合 模型缩放律 容量感知 性能优化

📋 核心要点

  1. 现有数据混合方法在大型语言模型中优化数据配比时,面临计算成本高昂和外推性差的挑战。
  2. 论文提出容量感知混合律CAMEL,通过建模模型大小和混合方式的非线性关系来预测验证损失。
  3. 实验结果表明,该方法能有效降低混合优化成本,并在下游任务中提升模型性能,最高可达3%。

📝 摘要(中文)

数据混合是指将不同的数据源组合起来训练大型语言模型,选择有效的混合方式对于获得最佳下游性能至关重要。现有方法要么直接在目标模型上进行代价高昂的搜索,要么依赖于混合缩放律,但这些缩放律无法很好地外推到大型模型。为了解决这些限制,本文提出了一种计算高效的数据混合缩放流程。首先,提出了CAMEL,一种容量感知混合律,它使用模型大小和混合方式之间的非线性相互作用来建模验证损失。还引入了一种损失到基准预测律,用于从验证损失估计基准精度,从而实现目标模型的端到端性能预测。接下来,研究了如何在模型尺度上分配固定的计算预算以拟合该定律并减少预测误差。最后,将该方法应用于具有高达7B-A150M参数的混合专家模型以拟合该定律,并通过外推到55B-A1.2B目标模型来验证从该定律导出的最佳混合。与先前方法相比,该方法将混合优化成本降低了50%,并将下游基准性能提高了高达3%。

🔬 方法详解

问题定义:现有方法在优化大型语言模型的数据混合时,主要存在两个痛点。一是直接在目标模型上搜索最佳混合比例,计算成本非常高昂。二是依赖于混合缩放律,但这些缩放律通常无法很好地外推到更大的模型尺寸,导致优化效果不佳。因此,如何以更低的计算成本,更准确地预测大型模型在不同数据混合下的性能,是本文要解决的核心问题。

核心思路:本文的核心思路是提出一种容量感知的混合律(Capacity-Aware Mixture Law, CAMEL),该混合律能够建模模型大小和数据混合方式之间的非线性相互作用,从而更准确地预测验证损失。此外,还引入了一种损失到基准预测律,用于从验证损失估计基准精度,实现端到端的性能预测。通过这种方式,可以在较小的模型上进行实验,然后将结果外推到更大的目标模型,从而降低计算成本。

技术框架:该方法主要包含三个阶段。首先,使用不同大小的模型和不同的数据混合比例进行训练,收集验证损失数据。然后,使用这些数据拟合CAMEL混合律,学习模型大小、数据混合比例和验证损失之间的关系。接着,利用损失到基准预测律,将验证损失映射到基准精度。最后,根据拟合的混合律和预测律,优化数据混合比例,以在给定的计算预算下最大化目标模型的性能。

关键创新:该方法最重要的创新点在于提出了容量感知的混合律CAMEL,它能够更准确地建模模型大小和数据混合比例之间的非线性关系。与传统的线性缩放律相比,CAMEL能够更好地捕捉大型模型的复杂行为,从而实现更准确的性能预测和更有效的混合优化。

关键设计:CAMEL混合律的具体形式未知(论文未明确给出公式),但其核心思想是考虑了模型容量对数据混合效果的影响。损失到基准预测律的具体形式也未知,但其目标是将验证损失映射到下游任务的基准精度。此外,该方法还涉及如何在不同模型尺度上分配计算预算,以最大程度地减少预测误差。具体分配策略未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与现有方法相比,该方法能够将数据混合优化成本降低50%,并在下游基准测试中将模型性能提升高达3%。该方法在具有高达7B-A150M参数的混合专家模型上进行了验证,并通过外推到55B-A1.2B目标模型证明了其有效性。

🎯 应用场景

该研究成果可广泛应用于大型语言模型的预训练和微调阶段,帮助研究人员和工程师更高效地选择最佳的数据混合比例,从而提升模型的性能和泛化能力。此外,该方法还可以应用于其他机器学习模型的超参数优化,具有一定的通用性。未来,该方法有望促进低成本、高性能的大型语言模型开发。

📄 摘要(原文)

A data mixture refers to how different data sources are combined to train large language models, and selecting an effective mixture is crucial for optimal downstream performance. Existing methods either conduct costly searches directly on the target model or rely on mixture scaling laws that fail to extrapolate well to large model sizes. We address these limitations by introducing a compute-efficient pipeline for data mixture scaling. First, we propose CAMEL, a capacity-aware mixture law that models validation loss with the nonlinear interplay between model size and mixture. We also introduce a loss-to-benchmark prediction law that estimates benchmark accuracy from validation loss, enabling end-to-end performance prediction for the target model. Next, we study how to allocate a fixed compute budget across model scales to fit the law and reduce prediction error. Finally, we apply our method to Mixture-of-Experts models with up to 7B-A150M parameters to fit the law, and verify the optimal mixture derived from the law by extrapolating to a 55B-A1.2B target model. Compared to prior methods, we reduces mixture optimization costs by 50\% and improves downstream benchmark performance by up to 3\%.