Theoretical Foundations of Scaling Law in Familial Models

📄 arXiv: 2512.23407v2 📥 PDF

作者: Huan Song, Qingfei Zhao, Ting Long, Shuyu Tian, Hongjun An, Jiawei Shao, Xuelong Li

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-12-29 (更新: 2026-01-23)


💡 一句话要点

扩展Scaling Law,针对Familial模型引入粒度变量,实现“一次训练,多次部署”。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Scaling Law Familial模型 粒度 模型部署 边缘计算

📋 核心要点

  1. 现有的Scaling Law主要针对单一模型输出,无法有效支持Familial模型这种“一次训练,多次部署”的范式。
  2. 论文提出将粒度(G)作为Scaling Law的关键变量,与模型大小(N)和训练tokens(D)一起,构建统一的函数形式L(N, D, G)。
  3. 通过IsoFLOP实验设计,隔离架构影响与计算规模,揭示粒度惩罚遵循具有极小指数的乘法幂律,验证了部署灵活性。
  4. Familial模型通过早期退出和中继式推理,从单个共享骨干网络中生成多个可部署的子模型,实现异构设备上的智能。

📝 摘要(中文)

神经Scaling Law已成为优化大型语言模型(LLM)训练的基础,但通常假设单一密集模型输出。这种限制忽略了“Familial模型”,这是一种变革性范例,对于在异构设备-边缘-云层次结构中实现普遍智能至关重要。Familial模型超越了静态架构,集成了早期退出与中继式推理,从而从单个共享骨干网络中产生G个可部署的子模型。本文通过引入粒度(G)作为模型大小(N)和训练tokens(D)之外的基本scaling变量,从理论和经验上扩展了scaling law,以捕捉这种“一次运行,多个模型”的范例。为了严格量化这种关系,我们提出了一个统一的函数形式L(N, D, G),并使用大规模经验运行对其进行参数化。具体来说,我们采用严格的IsoFLOP实验设计,以严格地将架构影响与计算规模隔离开来。在固定预算下,我们系统地扫描模型大小(N)和粒度(G),同时动态调整tokens(D)。这种方法有效地将粒度的边际成本与规模的优势分离开来,确保了我们统一scaling law的高保真参数化。我们的结果表明,粒度惩罚遵循一个具有极小指数的乘法幂律。从理论上讲,这弥合了固定计算训练与动态架构之间的差距。实际上,它验证了“一次训练,多次部署”的范例,表明部署灵活性可以在不影响密集基线的计算最优性的情况下实现。

🔬 方法详解

问题定义:现有的神经Scaling Law主要关注单一的、稠密的模型,无法直接应用于Familial模型。Familial模型旨在通过一次训练得到多个不同复杂度的子模型,以适应不同的部署环境(例如,边缘设备、云服务器等)。现有Scaling Law的痛点在于无法描述模型粒度(即子模型的数量和复杂度)对性能的影响,从而限制了Familial模型的优化和部署。

核心思路:论文的核心思路是将模型粒度(Granularity,G)作为一个新的scaling变量引入到Scaling Law中。通过将模型性能表示为模型大小(N)、训练tokens(D)和模型粒度(G)的函数L(N, D, G),从而能够更准确地描述Familial模型的性能。这种方法允许在固定计算预算下,权衡模型大小、训练数据量和模型粒度之间的关系,从而优化Familial模型的训练和部署。

技术框架:论文的技术框架主要包括以下几个部分:1) 提出统一的函数形式L(N, D, G)来描述Familial模型的性能;2) 设计IsoFLOP实验,以隔离架构影响和计算规模;3) 通过系统地扫描模型大小(N)和粒度(G),同时动态调整tokens(D),来参数化L(N, D, G);4) 分析实验结果,揭示粒度惩罚的规律。

关键创新:论文最重要的技术创新点在于将模型粒度(G)引入到Scaling Law中,从而扩展了Scaling Law的应用范围,使其能够适用于Familial模型。此外,论文还提出了IsoFLOP实验设计,有效地隔离了架构影响和计算规模,从而能够更准确地评估模型粒度对性能的影响。这种方法为研究动态架构和固定计算训练之间的关系提供了新的思路。

关键设计:论文的关键设计包括:1) 使用乘法幂律来描述粒度惩罚,即L(N, D, G) = L(N, D) * G^α,其中α是一个极小的指数;2) 设计IsoFLOP实验,确保在不同的模型大小和粒度下,计算量保持不变;3) 通过动态调整训练tokens(D),来优化模型性能。具体的参数设置和网络结构细节可能依赖于具体的实验设置,论文中可能没有详细描述。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,粒度惩罚遵循一个具有极小指数的乘法幂律,这意味着增加模型粒度对性能的影响相对较小。通过IsoFLOP实验,论文验证了在固定计算预算下,可以通过调整模型大小和粒度来优化Familial模型的性能。这些结果验证了“一次训练,多次部署”的范例,表明部署灵活性可以在不影响计算最优性的情况下实现。

🎯 应用场景

该研究成果可应用于各种需要灵活部署模型的场景,例如边缘计算、移动设备应用、物联网等。通过优化模型粒度,可以在资源受限的设备上部署更轻量级的模型,同时在计算能力更强的设备上部署更复杂的模型,从而实现更广泛的智能应用。该研究还有助于开发更高效的Familial模型训练方法,降低训练成本,加速模型部署。

📄 摘要(原文)

Neural scaling laws have become foundational for optimizing large language model (LLM) training, yet they typically assume a single dense model output. This limitation effectively overlooks "Familial models, a transformative paradigm essential for realizing ubiquitous intelligence across heterogeneous device-edge-cloud hierarchies. Transcending static architectures, familial models integrate early exits with relay-style inference to spawn G deployable sub-models from a single shared backbone. In this work, we theoretically and empirically extend the scaling law to capture this "one-run, many-models" paradigm by introducing Granularity (G) as a fundamental scaling variable alongside model size (N) and training tokens (D). To rigorously quantify this relationship, we propose a unified functional form L(N, D, G) and parameterize it using large-scale empirical runs. Specifically, we employ a rigorous IsoFLOP experimental design to strictly isolate architectural impact from computational scale. Across fixed budgets, we systematically sweep model sizes (N) and granularities (G) while dynamically adjusting tokens (D). This approach effectively decouples the marginal cost of granularity from the benefits of scale, ensuring high-fidelity parameterization of our unified scaling law. Our results reveal that the granularity penalty follows a multiplicative power law with an extremely small exponent. Theoretically, this bridges fixed-compute training with dynamic architectures. Practically, it validates the "train once, deploy many" paradigm, demonstrating that deployment flexibility is achievable without compromising the compute-optimality of dense baselines.