Flow-Factory: A Unified Framework for Reinforcement Learning in Flow-Matching Models

作者: Bowen Ping, Chengyou Jia, Minnan Luo, Hangwei Qian, Ivor Tsang

分类: cs.LG, cs.CV

发布日期: 2026-02-13

🔗 代码/项目: GITHUB

💡 一句话要点

Flow-Factory：统一强化学习框架，加速Flow-Matching模型与人类偏好对齐

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Flow-Matching模型 强化学习 扩散模型 统一框架 模块化设计

📋 核心要点

现有强化学习方法在Flow-Matching模型中应用时，存在代码分散、模型定制化强、工程复杂度高等挑战。
Flow-Factory通过模块化和注册机制解耦算法、模型和奖励，实现算法和架构的无缝集成，降低开发和维护成本。
该框架支持多种算法和模型，并提供内存优化、多奖励训练和分布式训练等功能，加速研究和应用落地。

📝 摘要（中文）

强化学习已成为使扩散模型和Flow-Matching模型与人类偏好对齐的一种有前景的范例，但从业者面临着代码库分散、模型特定实现和工程复杂性等问题。我们推出了Flow-Factory，这是一个统一的框架，通过基于模块化、基于注册的架构来解耦算法、模型和奖励。这种设计能够无缝集成新的算法和架构，正如我们对Flux、Qwen-Image和WAN视频模型中GRPO、DiffusionNFT和AWM的支持所证明的那样。通过最大限度地减少实现开销，Flow-Factory使研究人员能够轻松快速地原型设计和扩展未来的创新。Flow-Factory提供生产就绪的内存优化、灵活的多奖励训练和无缝的分布式训练支持。代码库可在https://github.com/X-GenGroup/Flow-Factory获得。

🔬 方法详解

问题定义：现有基于强化学习的Flow-Matching模型训练方法存在代码库分散、模型特定实现以及工程复杂性高等问题。研究人员需要花费大量精力在不同模型和算法之间切换，阻碍了新算法的快速原型设计和验证。此外，缺乏统一的框架也使得模型部署和扩展变得困难。

核心思路：Flow-Factory的核心思路是通过模块化设计和注册机制，将强化学习算法、Flow-Matching模型以及奖励函数解耦。这种解耦使得研究人员可以独立地开发和修改各个模块，而无需关心其他模块的实现细节。通过注册机制，可以方便地添加新的算法和模型，实现框架的灵活扩展。

技术框架：Flow-Factory采用模块化、基于注册的架构。整体框架包含以下几个主要模块：1) 算法模块：包含各种强化学习算法的实现，如GRPO、DiffusionNFT和AWM等。2) 模型模块：包含各种Flow-Matching模型的实现，如Flux、Qwen-Image和WAN视频模型等。3) 奖励模块：定义了不同的奖励函数，用于指导强化学习算法的训练。框架通过注册机制将这些模块连接起来，实现算法、模型和奖励的灵活组合。此外，框架还提供了内存优化、多奖励训练和分布式训练等功能。

关键创新：Flow-Factory的关键创新在于其统一的框架设计，实现了算法、模型和奖励的解耦。这种解耦使得研究人员可以更加专注于算法的创新，而无需花费大量精力在模型和工程实现上。此外，框架提供的内存优化、多奖励训练和分布式训练等功能，也大大提高了训练效率和模型性能。

关键设计：Flow-Factory的关键设计包括：1) 模块化架构：将算法、模型和奖励划分为独立的模块，方便开发和维护。2) 注册机制：通过注册机制实现模块的动态加载和组合。3) 统一接口：定义了统一的接口，使得不同的算法和模型可以方便地集成到框架中。4) 内存优化：采用多种内存优化技术，降低训练过程中的内存消耗。5) 多奖励训练：支持同时使用多个奖励函数进行训练，提高模型的泛化能力。6) 分布式训练：支持分布式训练，加速模型训练过程。

🖼️ 关键图片

📊 实验亮点

Flow-Factory支持GRPO、DiffusionNFT和AWM等多种强化学习算法，以及Flux、Qwen-Image和WAN视频模型等多种Flow-Matching模型。实验表明，该框架能够有效地训练这些模型，并取得良好的生成效果。此外，Flow-Factory提供的内存优化、多奖励训练和分布式训练等功能，也显著提高了训练效率。

🎯 应用场景

Flow-Factory可广泛应用于图像生成、视频生成、文本生成等领域，通过强化学习方法优化生成模型的输出，使其更符合人类偏好。该框架降低了Flow-Matching模型强化学习的门槛，加速了相关研究和应用落地，有望推动生成模型在艺术创作、内容生成、智能助手等领域的应用。

📄 摘要（原文）

Reinforcement learning has emerged as a promising paradigm for aligning diffusion and flow-matching models with human preferences, yet practitioners face fragmented codebases, model-specific implementations, and engineering complexity. We introduce Flow-Factory, a unified framework that decouples algorithms, models, and rewards through through a modular, registry-based architecture. This design enables seamless integration of new algorithms and architectures, as demonstrated by our support for GRPO, DiffusionNFT, and AWM across Flux, Qwen-Image, and WAN video models. By minimizing implementation overhead, Flow-Factory empowers researchers to rapidly prototype and scale future innovations with ease. Flow-Factory provides production-ready memory optimization, flexible multi-reward training, and seamless distributed training support. The codebase is available at https://github.com/X-GenGroup/Flow-Factory.

Flow-Factory: A Unified Framework for Reinforcement Learning in Flow-Matching Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理