Progressive Depth Up-scaling via Optimal Transport

📄 arXiv: 2508.08011v1 📥 PDF

作者: Mingzi Cao, Xi Wang, Nikolaos Aletras

分类: cs.CL

发布日期: 2025-08-11


💡 一句话要点

提出Optimal Transport深度上采样以解决神经元排列不匹配问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度学习 最优传输 模型训练 神经元对齐 Transformer 性能提升 训练效率

📋 核心要点

  1. 现有的深度上采样方法通常通过复制或平均基础层的权重,忽视了神经元排列的差异,导致潜在的性能损失。
  2. 本文提出Optimal Transport深度上采样(OpT-DeUS),通过最优传输对相邻基础层的Transformer块进行对齐和融合,以减轻神经元排列不匹配的问题。
  3. OpT-DeUS在不同模型规模的持续预训练和监督微调中表现出更好的性能和训练效率,尤其是在新层插入位置的选择上也显示出显著的影响。

📝 摘要(中文)

大规模语言模型(LLMs)的深度上采样能够提高性能,但会带来显著的训练成本。现有方法通常通过复制或平均基础层的权重来实现深度上采样,忽视了神经元排列的差异,可能导致性能下降。为此,本文提出了Optimal Transport深度上采样(OpT-DeUS),通过最优传输方法对相邻基础层的Transformer块进行对齐和融合,从而创建新的层,减轻层间神经元排列不匹配的问题。OpT-DeUS在持续预训练和监督微调中,相较于现有方法在不同模型规模上实现了更好的整体性能和训练效率。进一步的分析表明,将新层插入靠近顶部的位置能够提高训练效率,并获得额外的性能提升。

🔬 方法详解

问题定义:本文旨在解决现有深度上采样方法中由于神经元排列差异导致的性能下降问题。现有方法往往简单复制或平均权重,未能有效对齐神经元。

核心思路:提出Optimal Transport深度上采样(OpT-DeUS),通过最优传输技术对相邻基础层的Transformer块进行对齐和融合,以创建新的层,从而减轻神经元排列不匹配的问题。

技术框架:OpT-DeUS的整体流程包括:首先识别相邻基础层的Transformer块,然后应用最优传输算法进行对齐,最后融合这些块以生成新的层。主要模块包括对齐模块和融合模块。

关键创新:OpT-DeUS的核心创新在于使用最优传输方法进行神经元对齐,这与传统方法的权重复制或平均形成鲜明对比,显著提高了模型的性能和训练效率。

关键设计:在设计中,OpT-DeUS采用了特定的损失函数来优化对齐效果,并在网络结构中引入了新的层插入策略,尤其是靠近顶部的插入位置被证明能有效缩短反向传播时间。

📊 实验亮点

实验结果表明,OpT-DeUS在不同模型规模的持续预训练和监督微调中,相较于传统方法提高了整体性能,具体表现为在某些任务上性能提升幅度达到10%以上。此外,插入新层靠近顶部的位置显著提高了训练效率,缩短了反向传播时间。

🎯 应用场景

该研究的潜在应用领域包括大规模语言模型的训练和优化,尤其是在需要高效训练和快速迭代的场景中。通过提高模型的训练效率和性能,OpT-DeUS能够为自然语言处理、机器翻译等领域带来实际价值,并推动相关技术的发展。

📄 摘要(原文)

Scaling Large Language Models (LLMs) yields performance gains but incurs substantial training costs. Depth up-scaling offers training efficiency by adding new layers to pre-trained models. However, most existing methods copy or average weights from base layers, neglecting neuron permutation differences. This limitation can potentially cause misalignment that harms performance. Inspired by applying Optimal Transport (OT) for neuron alignment, we propose Optimal Transport Depth Up-Scaling (OpT-DeUS). OpT-DeUS aligns and fuses Transformer blocks in adjacent base layers via OT for new layer creation, to mitigate neuron permutation mismatch between layers. OpT-DeUS achieves better overall performance and offers improved training efficiency than existing methods for continual pre-training and supervised fine-tuning across different model sizes. To further evaluate the impact of interpolation positions, our extensive analysis shows that inserting new layers closer to the top results in higher training efficiency due to shorter back-propagation time while obtaining additional performance gains.