DeepWeightFlow: Re-Basined Flow Matching for Generating Neural Network Weights

📄 arXiv: 2601.05052v1 📥 PDF

作者: Saumya Gupta, Scott Biggs, Moritz Laber, Zohair Shafi, Robin Walters, Ayan Paul

分类: cs.LG, stat.ML

发布日期: 2026-01-08

备注: 25 pages, 20 tables, 2 figures


💡 一句话要点

DeepWeightFlow:基于重定基流匹配的神经网络权重生成方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 神经网络权重生成 流匹配 神经ODE 网络规范化 迁移学习 模型集成 Git Re-Basin TransFusion

📋 核心要点

  1. 现有神经网络权重生成模型难以处理高维权重空间和对称性,限制了其在大型网络上的应用。
  2. DeepWeightFlow通过流匹配模型直接在权重空间生成权重,无需微调即可获得高性能。
  3. 该方法结合Git Re-Basin和TransFusion进行网络规范化,显著提升了生成效率和迁移学习能力。

📝 摘要(中文)

构建高效且有效的神经网络权重生成模型一直是研究的热点,但面临着现代神经网络高维权重空间及其对称性带来的挑战。先前的生成模型通常仅限于生成部分神经网络权重,尤其是在ResNet和ViT等大型模型中。能够生成完整权重的模型在生成速度方面存在瓶颈,或者需要对生成的模型进行微调。本文提出了DeepWeightFlow,一种直接在权重空间中运行的流匹配模型,能够为各种架构、神经网络大小和数据模态生成多样且高精度的神经网络权重。DeepWeightFlow生成的网络无需微调即可表现良好,并且可以扩展到大型网络。我们应用Git Re-Basin和TransFusion进行神经网络规范化,以解决神经网络置换对称性的影响,并提高大型模型的生成效率。生成的网络在迁移学习方面表现出色,并且可以在几分钟内生成数百个神经网络的集成,远远超过了基于扩散的方法的效率。DeepWeightFlow模型为更高效和可扩展地生成多样化的神经网络集合铺平了道路。

🔬 方法详解

问题定义:论文旨在解决神经网络权重生成问题,现有方法在高维权重空间和对称性方面存在挑战,导致生成速度慢、需要微调,且难以扩展到大型网络,限制了其在实际应用中的潜力。

核心思路:论文的核心思路是利用流匹配模型直接在神经网络的权重空间中进行生成。流匹配通过学习一个连续的向量场,将一个简单的先验分布(如高斯分布)映射到目标权重分布,从而实现权重的生成。这种方法避免了传统生成模型在高维空间中训练的困难。

技术框架:DeepWeightFlow的整体框架包括以下几个主要步骤:1) 数据准备:收集或生成神经网络权重数据。2) 流匹配模型训练:使用神经网络学习一个时间相关的向量场,该向量场定义了从先验分布到权重分布的连续变换。3) 权重生成:从先验分布中采样,并使用学习到的向量场进行积分,得到生成的神经网络权重。4) 网络规范化:应用Git Re-Basin和TransFusion等技术来消除神经网络的置换对称性,提高生成效率。

关键创新:该方法最重要的创新在于将流匹配模型应用于神经网络权重生成,并结合网络规范化技术。与传统的GAN或VAE等方法相比,流匹配模型具有更好的稳定性和可解释性,能够生成更高质量的权重。同时,网络规范化技术可以显著减少权重空间的冗余,提高生成效率。

关键设计:DeepWeightFlow的关键设计包括:1) 使用连续时间神经常微分方程(Neural ODE)来定义向量场,实现高效的积分计算。2) 采用条件流匹配,允许根据不同的网络架构和数据模态生成权重。3) 结合Git Re-Basin和TransFusion等技术,对生成的权重进行规范化,消除置换对称性。4) 损失函数的设计旨在最小化生成的权重与真实权重之间的差异,并鼓励生成权重的多样性。

📊 实验亮点

DeepWeightFlow在生成神经网络权重方面表现出显著的优势。实验表明,该方法能够为各种架构(包括ResNet和ViT)生成高质量的权重,且无需微调即可达到良好的性能。与基于扩散的方法相比,DeepWeightFlow的生成速度更快,可以在几分钟内生成数百个神经网络的集成。此外,生成的网络在迁移学习任务中表现出色,证明了该方法生成的权重的泛化能力。

🎯 应用场景

DeepWeightFlow在神经网络架构搜索、模型压缩、联邦学习和迁移学习等领域具有广泛的应用前景。它可以用于快速生成大量具有不同权重的神经网络,从而加速模型探索和优化过程。此外,生成的网络可以作为预训练模型,用于迁移到新的任务和数据集,提高模型的泛化能力。该技术还有助于解决联邦学习中的模型异构性问题,为每个客户端生成定制化的模型。

📄 摘要(原文)

Building efficient and effective generative models for neural network weights has been a research focus of significant interest that faces challenges posed by the high-dimensional weight spaces of modern neural networks and their symmetries. Several prior generative models are limited to generating partial neural network weights, particularly for larger models, such as ResNet and ViT. Those that do generate complete weights struggle with generation speed or require finetuning of the generated models. In this work, we present DeepWeightFlow, a Flow Matching model that operates directly in weight space to generate diverse and high-accuracy neural network weights for a variety of architectures, neural network sizes, and data modalities. The neural networks generated by DeepWeightFlow do not require fine-tuning to perform well and can scale to large networks. We apply Git Re-Basin and TransFusion for neural network canonicalization in the context of generative weight models to account for the impact of neural network permutation symmetries and to improve generation efficiency for larger model sizes. The generated networks excel at transfer learning, and ensembles of hundreds of neural networks can be generated in minutes, far exceeding the efficiency of diffusion-based methods. DeepWeightFlow models pave the way for more efficient and scalable generation of diverse sets of neural networks.