Theoretical Foundations of Scaling Law in Familial Models
作者: Huan Song, Qingfei Zhao, Ting Long, Shuyu Tian, Hongjun An, Jiawei Shao, Chi Zhang, Xuelong Li
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-12-29
💡 一句话要点
针对Familial模型,提出包含模型粒度的新型Scaling Law理论框架。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Scaling Law Familial模型 模型粒度 IsoFLOP实验 模型部署
📋 核心要点
- 现有Scaling Law主要针对单一稠密模型,无法有效支持Familial模型这种“一次训练,多次部署”的范式。
- 论文提出将模型粒度(G)作为scaling变量,构建统一的Scaling Law函数L(N, D, G),从而支持Familial模型。
- 通过IsoFLOP实验设计,隔离架构影响与计算规模,验证了部署灵活性不会影响计算最优性,并参数化了Scaling Law。
📝 摘要(中文)
神经Scaling Law已成为优化大型语言模型(LLM)训练的基础,但它们通常假设单一的稠密模型输出。这种局限性忽略了“Familial模型”,这是一种对于在异构设备-边缘-云层次结构中实现普遍智能至关重要的变革性范例。Familial模型超越了静态架构,集成了早期退出与中继式推理,从而从单个共享骨干网络中产生G个可部署的子模型。在这项工作中,我们通过引入粒度(G)作为模型大小(N)和训练tokens(D)之外的基本scaling变量,从理论和经验上扩展了scaling law,以捕捉这种“一次运行,多个模型”的范例。为了严格量化这种关系,我们提出了一个统一的函数形式L(N, D, G),并使用大规模的经验运行对其进行参数化。具体来说,我们采用严格的IsoFLOP实验设计,以严格地将架构影响与计算规模隔离开来。在固定的预算下,我们系统地扫描模型大小(N)和粒度(G),同时动态调整tokens(D)。这种方法有效地将粒度的边际成本与规模的优势分离开来,从而确保了我们统一scaling law的高保真参数化。我们的结果表明,粒度惩罚遵循一个具有极小指数的乘法幂律。从理论上讲,这桥接了固定计算训练与动态架构。实际上,它验证了“一次训练,多次部署”的范例,表明部署灵活性可以在不影响稠密基线的计算最优性的情况下实现。
🔬 方法详解
问题定义:现有的神经Scaling Law主要关注单一的、稠密的模型,无法直接应用于Familial模型。Familial模型允许从一个共享的骨干网络中派生出多个不同粒度的子模型,以适应不同的部署环境和计算资源。因此,如何建立适用于Familial模型的Scaling Law,从而指导其训练和部署,是一个关键问题。现有方法无法有效衡量模型粒度对性能的影响,也无法在固定计算预算下优化模型大小和粒度的分配。
核心思路:论文的核心思路是将模型粒度(G)引入Scaling Law,将其作为一个独立的scaling变量,与模型大小(N)和训练tokens(D)一起,共同决定模型的性能。通过建立一个统一的函数形式L(N, D, G),可以量化模型大小、训练数据和模型粒度之间的关系。这种设计允许在固定计算预算下,权衡模型大小和粒度,从而优化Familial模型的训练和部署。
技术框架:论文采用了一种系统的实验方法来研究Familial模型的Scaling Law。首先,定义了模型粒度(G)的概念,并将其作为scaling变量。然后,设计了IsoFLOP实验,即在固定的计算预算下,系统地扫描不同的模型大小(N)和粒度(G),并动态调整训练tokens(D)。通过这种方式,可以有效地将架构影响与计算规模隔离开来。最后,使用实验数据来参数化统一的Scaling Law函数L(N, D, G),从而建立模型大小、训练数据和模型粒度之间的关系。
关键创新:论文的关键创新在于将模型粒度(G)引入Scaling Law,并提出了统一的函数形式L(N, D, G)。这使得Scaling Law能够适用于Familial模型,从而支持“一次训练,多次部署”的范式。与现有方法相比,该方法能够更准确地预测Familial模型的性能,并指导其训练和部署。此外,IsoFLOP实验设计也是一个重要的创新,它可以有效地隔离架构影响与计算规模,从而提高实验结果的可靠性。
关键设计:论文的关键设计包括:1) 模型粒度的定义:明确了如何衡量Familial模型中子模型的数量和复杂程度。2) IsoFLOP实验设计:确保在固定计算预算下进行实验,从而避免计算规模对实验结果的干扰。3) 统一的Scaling Law函数L(N, D, G):选择合适的函数形式来拟合实验数据,并确定函数中的参数。4) 粒度惩罚的建模:发现粒度惩罚遵循一个具有极小指数的乘法幂律,这表明部署灵活性可以在不影响计算最优性的情况下实现。
📊 实验亮点
实验结果表明,粒度惩罚遵循一个具有极小指数的乘法幂律,这意味着增加模型粒度对性能的影响相对较小。这验证了“一次训练,多次部署”的范例,表明部署灵活性可以在不影响稠密基线的计算最优性的情况下实现。通过IsoFLOP实验,论文成功地将架构影响与计算规模隔离开来,从而提高了实验结果的可靠性。
🎯 应用场景
该研究成果可应用于各种需要灵活部署的场景,例如边缘计算、移动设备和云计算。通过Familial模型和新型Scaling Law,可以根据不同设备的计算能力和资源限制,选择合适的子模型进行部署,从而实现更高效、更智能的应用。例如,在智能家居场景中,可以使用较小的子模型在本地设备上进行快速响应,而将复杂的任务交给云端进行处理。
📄 摘要(原文)
Neural scaling laws have become foundational for optimizing large language model (LLM) training, yet they typically assume a single dense model output. This limitation effectively overlooks "Familial models, a transformative paradigm essential for realizing ubiquitous intelligence across heterogeneous device-edge-cloud hierarchies. Transcending static architectures, familial models integrate early exits with relay-style inference to spawn G deployable sub-models from a single shared backbone. In this work, we theoretically and empirically extend the scaling law to capture this "one-run, many-models" paradigm by introducing Granularity (G) as a fundamental scaling variable alongside model size (N) and training tokens (D). To rigorously quantify this relationship, we propose a unified functional form L(N, D, G) and parameterize it using large-scale empirical runs. Specifically, we employ a rigorous IsoFLOP experimental design to strictly isolate architectural impact from computational scale. Across fixed budgets, we systematically sweep model sizes (N) and granularities (G) while dynamically adjusting tokens (D). This approach effectively decouples the marginal cost of granularity from the benefits of scale, ensuring high-fidelity parameterization of our unified scaling law. Our results reveal that the granularity penalty follows a multiplicative power law with an extremely small exponent. Theoretically, this bridges fixed-compute training with dynamic architectures. Practically, it validates the "train once, deploy many" paradigm, demonstrating that deployment flexibility is achievable without compromising the compute-optimality of dense baselines.