DeepWeightFlow: Re-Basined Flow Matching for Generating Neural Network Weights
作者: Saumya Gupta, Scott Biggs, Moritz Laber, Zohair Shafi, Robin Walters, Ayan Paul
分类: cs.LG, stat.ML
发布日期: 2026-01-08
备注: 25 pages, 20 tables, 2 figures
💡 一句话要点
DeepWeightFlow:一种用于生成神经网络权重的重定基流匹配方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 神经网络生成 流匹配 权重空间 模型集成 迁移学习
📋 核心要点
- 现有神经网络权重生成模型在高维权重空间和对称性方面存在挑战,难以生成完整权重或速度慢。
- DeepWeightFlow通过流匹配直接在权重空间生成权重,无需微调即可扩展到大型网络。
- 实验表明,DeepWeightFlow生成的网络在迁移学习中表现出色,生成速度远超扩散模型。
📝 摘要(中文)
为神经网络权重构建高效且有效的生成模型一直是研究的重点,但面临着现代神经网络高维权重空间及其对称性带来的挑战。先前的生成模型通常仅限于生成部分神经网络权重,特别是对于ResNet和ViT等大型模型。能够生成完整权重的模型在生成速度方面存在瓶颈,或者需要对生成的模型进行微调。本文提出了DeepWeightFlow,一种直接在权重空间中运行的流匹配模型,能够为各种架构、神经网络大小和数据模态生成多样且高精度的神经网络权重。DeepWeightFlow生成的网络无需微调即可表现良好,并且可以扩展到大型网络。本文应用Git Re-Basin和TransFusion进行神经网络规范化,以解决神经网络置换对称性的影响,并提高大型模型的生成效率。生成的网络在迁移学习方面表现出色,并且可以在几分钟内生成数百个神经网络的集成,远远超过了基于扩散的方法的效率。DeepWeightFlow模型为更高效、可扩展地生成多样化的神经网络集合铺平了道路。
🔬 方法详解
问题定义:论文旨在解决神经网络权重生成模型的效率和可扩展性问题。现有方法要么只能生成部分权重,要么生成速度慢,或者需要对生成的模型进行微调,无法有效处理大型神经网络的权重生成。
核心思路:论文的核心思路是利用流匹配模型直接在神经网络的权重空间中进行生成,避免了传统生成模型在高维空间中的困难。通过学习权重空间的连续变换,可以生成高质量且多样化的神经网络权重。
技术框架:DeepWeightFlow的整体框架包括以下几个主要步骤:1) 使用流匹配模型学习权重空间的连续变换;2) 应用Git Re-Basin和TransFusion等技术进行神经网络规范化,以解决权重空间的对称性问题;3) 通过采样流匹配模型生成新的神经网络权重。
关键创新:该方法最重要的创新在于直接在权重空间使用流匹配模型进行生成,并结合神经网络规范化技术来提高生成效率和模型性能。与以往方法相比,DeepWeightFlow能够生成完整的神经网络权重,且无需微调即可达到良好的性能。
关键设计:论文使用了条件连续归一化流(Conditional Continuous Normalizing Flows, cCNF)作为流匹配模型的具体实现。此外,Git Re-Basin和TransFusion被用于解决神经网络的置换对称性问题,从而提高生成效率和模型性能。损失函数采用标准的流匹配损失,旨在最小化预测的向量场与真实向量场之间的差异。
📊 实验亮点
DeepWeightFlow在生成神经网络权重方面表现出色,生成的网络无需微调即可在各种任务上取得良好的性能。实验表明,DeepWeightFlow能够快速生成大量高质量的神经网络,其生成速度远超基于扩散的方法。此外,生成的网络在迁移学习方面表现优异,证明了该方法生成权重的有效性和泛化能力。
🎯 应用场景
DeepWeightFlow在自动机器学习(AutoML)、模型压缩、迁移学习和模型集成等领域具有广泛的应用前景。它可以用于快速生成大量具有不同架构和权重的神经网络,从而加速模型搜索和优化过程。此外,该方法还可以用于生成具有特定属性的神经网络,例如对某种攻击具有鲁棒性的模型。未来,DeepWeightFlow有望成为构建高效且可定制化神经网络的重要工具。
📄 摘要(原文)
Building efficient and effective generative models for neural network weights has been a research focus of significant interest that faces challenges posed by the high-dimensional weight spaces of modern neural networks and their symmetries. Several prior generative models are limited to generating partial neural network weights, particularly for larger models, such as ResNet and ViT. Those that do generate complete weights struggle with generation speed or require finetuning of the generated models. In this work, we present DeepWeightFlow, a Flow Matching model that operates directly in weight space to generate diverse and high-accuracy neural network weights for a variety of architectures, neural network sizes, and data modalities. The neural networks generated by DeepWeightFlow do not require fine-tuning to perform well and can scale to large networks. We apply Git Re-Basin and TransFusion for neural network canonicalization in the context of generative weight models to account for the impact of neural network permutation symmetries and to improve generation efficiency for larger model sizes. The generated networks excel at transfer learning, and ensembles of hundreds of neural networks can be generated in minutes, far exceeding the efficiency of diffusion-based methods. DeepWeightFlow models pave the way for more efficient and scalable generation of diverse sets of neural networks.