Policy Optimized Text-to-Image Pipeline Design

作者: Uri Gadot, Rinon Gal, Yftah Ziser, Gal Chechik, Shie Mannor

分类: cs.CV, cs.AI

发布日期: 2025-05-27 (更新: 2025-11-01)

💡 一句话要点

提出基于强化学习的文本到图像生成流程优化方法，提升图像质量和多样性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 强化学习 流程优化 奖励模型 生成模型

📋 核心要点

现有文本到图像生成流程设计依赖专家知识，且基于LLM的自动化方法计算成本高昂，泛化能力不足。
提出基于强化学习的框架，训练奖励模型预测图像质量，避免训练时生成图像，并采用两阶段训练策略。
实验表明，该方法能够生成更多样化的流程，并获得比现有基线更高的图像质量。

📝 摘要（中文）

本文提出了一种新的基于强化学习的框架，用于优化文本到图像生成流程的设计。现有的文本到图像生成方法已经从单一模型发展到复杂的多组件流程，这些流程结合了微调生成器、适配器、上采样模块甚至编辑步骤，从而显著提高了图像质量。然而，有效的设计需要大量的专业知识。最近的方法已经展示了通过大型语言模型（LLM）自动执行此过程的潜力，但它们存在两个关键限制：通过数百个预定义流程生成图像需要大量的计算资源，并且在记忆的训练示例之外的泛化能力较差。我们的方法首先训练一个奖励模型集成，该模型能够直接从提示-工作流程组合预测图像质量分数，从而消除了训练期间昂贵的图像生成需求。然后，我们实施了一个两阶段训练策略：初始工作流程词汇训练，然后是基于GRPO的优化，引导模型朝着工作流程空间中性能更高的区域发展。此外，我们结合了一种基于无分类器引导的增强技术，该技术沿着初始模型和GRPO调整模型之间的路径进行外推，从而进一步提高输出质量。我们通过一系列比较验证了我们的方法，表明它可以成功创建具有更大多样性的新流程，并与现有基线相比，实现卓越的图像质量。

🔬 方法详解

问题定义：论文旨在解决文本到图像生成流程的自动设计问题。现有方法，特别是基于大型语言模型（LLM）的方法，在搜索最佳流程时需要生成大量图像，计算成本高昂。此外，这些方法容易过拟合训练数据，泛化能力较差，难以生成新的、高质量的流程。

核心思路：论文的核心思路是利用强化学习（RL）来优化文本到图像生成流程的设计。通过训练一个奖励模型，该模型能够直接从文本提示和流程组合预测图像质量，从而避免了在训练过程中生成大量图像。然后，使用强化学习算法（GRPO）来搜索最佳流程，引导模型探索更高性能的流程空间。

技术框架：该框架包含以下主要模块：1) 奖励模型集成：训练多个奖励模型，用于预测给定文本提示和流程组合的图像质量。2) 两阶段训练策略：首先进行工作流程词汇训练，学习流程的基本组成部分；然后使用GRPO进行优化，引导模型探索更高性能的流程空间。3) 基于无分类器引导的增强技术：在初始模型和GRPO调整模型之间进行外推，进一步提高输出质量。

关键创新：该方法最重要的创新点在于使用奖励模型来预测图像质量，从而避免了在训练过程中生成大量图像，显著降低了计算成本。此外，两阶段训练策略和基于无分类器引导的增强技术进一步提高了模型的性能和泛化能力。

关键设计：奖励模型可以使用各种图像质量评估指标进行训练，例如CLIP score或FID score。GRPO算法需要定义状态空间（流程组合）、动作空间（流程组件的选择）和奖励函数（奖励模型的输出）。基于无分类器引导的增强技术需要选择合适的引导强度，以平衡图像质量和多样性。具体的网络结构和参数设置在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了该方法的有效性，表明其能够生成更多样化的流程，并获得比现有基线更高的图像质量。具体的性能数据和提升幅度在摘要中未明确给出，属于未知信息。但结论是优于现有方法。

🎯 应用场景

该研究成果可应用于各种文本到图像生成场景，例如艺术创作、产品设计、游戏开发等。通过自动优化生成流程，可以显著提高图像质量和生成效率，降低对专业知识的依赖。未来，该方法可以扩展到其他生成任务，例如文本到视频、文本到3D模型等。

📄 摘要（原文）

Text-to-image generation has evolved beyond single monolithic models to complex multi-component pipelines. These combine fine-tuned generators, adapters, upscaling blocks and even editing steps, leading to significant improvements in image quality. However, their effective design requires substantial expertise. Recent approaches have shown promise in automating this process through large language models (LLMs), but they suffer from two critical limitations: extensive computational requirements from generating images with hundreds of predefined pipelines, and poor generalization beyond memorized training examples. We introduce a novel reinforcement learning-based framework that addresses these inefficiencies. Our approach first trains an ensemble of reward models capable of predicting image quality scores directly from prompt-workflow combinations, eliminating the need for costly image generation during training. We then implement a two-phase training strategy: initial workflow vocabulary training followed by GRPO-based optimization that guides the model toward higher-performing regions of the workflow space. Additionally, we incorporate a classifier-free guidance based enhancement technique that extrapolates along the path between the initial and GRPO-tuned models, further improving output quality. We validate our approach through a set of comparisons, showing that it can successfully create new flows with greater diversity and lead to superior image quality compared to existing baselines.

Policy Optimized Text-to-Image Pipeline Design

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理