Flow to Learn: Flow Matching on Neural Network Parameters
作者: Daniel Saragih, Deyu Cao, Tejas Balaji, Ashwin Santhosh
分类: cs.LG, cs.AI
发布日期: 2025-03-25 (更新: 2025-04-19)
备注: Accepted at the ICLR Workshop on Neural Network Weights as a New Data Modality 2025
💡 一句话要点
提出FLoWN,通过流匹配学习生成神经网络参数,提升图像任务的元学习能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 元学习 流匹配 神经网络参数生成 少样本学习 异分布泛化
📋 核心要点
- 现有图像领域的元学习模型在泛化能力上落后于大型语言模型,难以快速适应新概念。
- FLoWN通过流匹配学习神经网络参数的生成过程,利用上下文信息调节隐空间的流动。
- 实验表明,FLoWN在多个元学习任务上表现优异,尤其是在少样本和异分布场景下。
📝 摘要(中文)
本文提出FLoWN,一种流匹配模型,旨在学习生成不同任务的神经网络参数。该方法在隐空间上建模流,并以上下文数据为条件。实验验证了FLoWN满足元学习模型的各种需求。此外,FLoWN在同分布任务上匹配或超过基线,为分类器训练提供更好的初始化,并在少样本异分布任务上表现出色,同时具有微调机制以提高性能。
🔬 方法详解
问题定义:现有的图像元学习方法在快速适应新任务方面存在挑战,尤其是在数据有限或分布偏移的情况下。它们通常需要大量的训练数据或复杂的微调过程才能达到理想的性能。因此,如何高效地生成适用于不同任务的神经网络参数,成为一个关键问题。
核心思路:FLoWN的核心思路是利用流匹配模型学习一个从隐空间到神经网络参数空间的映射。通过将神经网络参数的生成过程建模为一个连续的流动,并以上下文数据为条件,FLoWN能够根据不同的任务需求生成相应的参数。这种方法避免了直接学习参数之间的复杂关系,而是学习一个更平滑、更易于泛化的流动。
技术框架:FLoWN的整体框架包括以下几个主要模块:1) 上下文编码器:用于提取上下文数据的特征表示。2) 流匹配模型:用于学习从隐空间到神经网络参数空间的映射。3) 参数生成器:根据流匹配模型生成的参数,构建神经网络。训练过程中,通过最小化流匹配损失,使得生成的参数能够更好地适应上下文数据。在推理阶段,给定新的上下文数据,FLoWN能够快速生成相应的神经网络参数。
关键创新:FLoWN的关键创新在于将流匹配模型应用于神经网络参数的生成。与传统的元学习方法相比,FLoWN不需要显式地学习参数之间的关系,而是学习一个连续的流动,从而提高了泛化能力和适应性。此外,FLoWN还引入了一种微调机制,可以在少样本情况下进一步提高性能。
关键设计:FLoWN的关键设计包括:1) 使用连续归一化流(CNF)作为流匹配模型,以保证生成的参数的连续性和可逆性。2) 使用上下文编码器提取上下文数据的特征表示,并将其作为流匹配模型的条件。3) 定义流匹配损失函数,用于训练流匹配模型。4) 设计微调机制,在少样本情况下进一步优化生成的参数。具体的网络结构和参数设置需要根据具体的任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FLoWN在同分布任务上与现有基线方法持平或略有提升,在少样本异分布任务上显著优于现有方法。例如,在miniImageNet数据集上,FLoWN在5-way 5-shot分类任务上取得了显著的性能提升。此外,FLoWN生成的参数可以作为分类器训练的良好初始化,加速收敛并提高最终性能。
🎯 应用场景
FLoWN具有广泛的应用前景,例如:1) 快速定制图像分类器,无需大量训练数据。2) 迁移学习,将模型快速适应到新的领域或任务。3) 自动化机器学习(AutoML),自动生成适用于不同数据集的神经网络结构和参数。该研究有望推动图像元学习的发展,并为实际应用提供更高效、更灵活的解决方案。
📄 摘要(原文)
Foundational language models show a remarkable ability to learn new concepts during inference via context data. However, similar work for images lag behind. To address this challenge, we introduce FLoWN, a flow matching model that learns to generate neural network parameters for different tasks. Our approach models the flow on latent space, while conditioning the process on context data. Experiments verify that FLoWN attains various desiderata for a meta-learning model. In addition, it matches or exceeds baselines on in-distribution tasks, provides better initializations for classifier training, and is performant on out-of-distribution few-shot tasks while having a fine-tuning mechanism to improve performance.