Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

作者: A. Bochkov

分类: cs.LG, cs.CL

发布日期: 2025-07-08 (更新: 2025-11-04)

备注: Controlled Comparative Study added

💡 一句话要点

提出一种基于冻结底层和模块化扩展的Transformer增长方法，实现高效可扩展的LLM。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大规模语言模型 Transformer 增量学习 模块化扩展 低秩适应 层冻结 涌现语义

📋 核心要点

现有LLM扩展方法依赖于资源密集的整体训练，缺乏灵活性和可扩展性。
该论文提出一种建设性的LLM增长方法，通过冻结底层并逐层扩展Transformer，实现高效训练。
实验表明，该方法在SQuAD等任务上表现出色，与同等规模的整体训练模型性能相当。

📝 摘要（中文）

大规模语言模型（LLM）扩展的主流范式是整体式的端到端训练，这种方法资源密集且缺乏灵活性。本文探索了一种替代的、建设性的扩展范式，该范式基于Transformer中冻结的、非语义输入嵌入所产生的涌现语义原理。我们认为，由于高层含义是Transformer深层网络的组合属性，而非其输入向量，因此嵌入层和训练过的底层可以作为固定的基础。这使得反向传播能够专注于新添加的组件，从而使增量增长成为可能。我们通过一种分层建设性方法来实现这一点，该方法结合了早期阶段的严格层冻结和通过低秩适应（LoRA）对整个模型堆栈进行高效的整体微调，随着复杂性的增加。这种方法不仅展示了稳定的收敛性，还揭示了模型深度与复杂推理能力（例如SQuAD所需的能力）之间的直接相关性，而这些能力在较浅的模型中是不存在的。在一项受控研究中，我们建设性增长的模型在性能上与相同大小的整体训练基线相媲美，验证了该方法的效率和有效性。我们的发现表明，可以从整体优化转向更具生物学或建设性的AI开发模型。这为更高效的资源扩展、持续学习以及构建强大AI系统的更模块化方法开辟了道路。我们发布所有代码和模型，以促进进一步研究。

🔬 方法详解

问题定义：现有大规模语言模型（LLM）的训练通常采用端到端的方式，需要大量的计算资源和时间。这种整体训练方法缺乏灵活性，难以适应新的任务或数据，并且难以进行模块化的扩展和维护。因此，如何高效且灵活地扩展LLM的规模，同时保持其性能，是一个重要的研究问题。

核心思路：该论文的核心思路是利用Transformer的涌现语义特性，即高层语义是由深层网络层组合产生的，而非直接来源于输入向量。因此，可以冻结Transformer的底层（包括嵌入层和部分浅层），将其作为固定的语义基础，然后在此基础上逐层添加新的Transformer层，并仅对新添加的层进行训练。这种方法可以显著减少训练所需的计算资源，并允许对模型进行模块化的扩展。

技术框架：该方法主要包含以下几个阶段：1) 初始化：使用预训练的Transformer模型作为基础，冻结其嵌入层和部分浅层。2) 逐层扩展：每次添加一层或多层新的Transformer层到冻结的底层之上。3) 训练：仅对新添加的层进行训练，可以使用传统的反向传播算法或更高效的参数高效微调方法，如LoRA。4) 整体微调：随着模型复杂度的增加，使用LoRA对整个模型进行微调，以进一步提升性能。

关键创新：该论文的关键创新在于提出了一种建设性的LLM增长方法，通过冻结底层和逐层扩展Transformer，实现了高效且灵活的模型扩展。与传统的整体训练方法相比，该方法可以显著减少训练所需的计算资源，并允许对模型进行模块化的扩展和维护。此外，该论文还发现模型深度与复杂推理能力之间存在直接相关性。

关键设计：在具体实现上，该论文采用了以下关键设计：1) 层冻结策略：在早期阶段，严格冻结底层，以确保语义基础的稳定性。2) LoRA微调：使用LoRA对新添加的层进行训练，以及对整个模型进行微调，以提高训练效率和模型性能。3) 模型深度控制：通过控制模型深度，研究了模型深度与复杂推理能力之间的关系。4) SQuAD评估：使用SQuAD数据集评估了模型的推理能力。

🖼️ 关键图片

📊 实验亮点

该论文通过实验验证了所提出的建设性增长方法的有效性。实验结果表明，通过该方法训练的模型在SQuAD等任务上表现出色，与同等规模的整体训练模型性能相当。此外，实验还揭示了模型深度与复杂推理能力之间的直接相关性，表明更深的模型能够更好地处理复杂的推理任务。

🎯 应用场景

该研究成果可应用于多种场景，例如：1) 资源受限环境下的LLM训练和部署；2) 持续学习，通过增量式地添加新层来适应新的任务和数据；3) 模块化AI系统构建，将不同的Transformer模块组合起来，构建更复杂的AI系统。该方法有望降低LLM的训练成本，加速LLM的应用普及，并促进更灵活和可扩展的AI系统设计。

📄 摘要（原文）

The prevailing paradigm for scaling large language models (LLMs) involves monolithic, end-to-end training, a resource-intensive process that lacks flexibility. This paper explores an alternative, constructive scaling paradigm, enabled by the principle of emergent semantics in Transformers with frozen, non-semantic input embeddings. We posit that because high-level meaning is a compositional property of a Transformer's deep layers, not its input vectors, the embedding layer and trained lower layers can serve as a fixed foundation. This liberates backpropagation to focus solely on newly added components, making incremental growth viable. We operationalize this with a layer-wise constructive methodology that combines strict layer freezing in early stages with efficient, holistic fine-tuning of the entire model stack via low-rank adaptation (LoRA) as complexity increases. This method not only demonstrates stable convergence but also reveals a direct correlation between model depth and the emergence of complex reasoning abilities, such as those required for SQuAD, which are absent in shallower models. In a controlled study, our constructively grown model rivals the performance of a monolithically trained baseline of the same size, validating the efficiency and efficacy of the approach. Our findings suggest a path towards a paradigm shift from monolithic optimization towards a more biological or constructive model of AI development. This opens a path for more resource-efficient scaling, continual learning, and a more modular approach to building powerful AI systems. We release all code and models to facilitate further research.

Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理