Flow-OPD: On-Policy Distillation for Flow Matching Models

📄 arXiv: 2605.08063v1 📥 PDF

作者: Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao, Shuang Chen, Kaituo Feng, Yunlong Lin, Lin Chen, Zehui Chen, Shaosheng Cao, Feng Zhao

分类: cs.CV, cs.AI

发布日期: 2026-05-08


💡 一句话要点

提出Flow-OPD框架,通过策略蒸馏解决流匹配模型多任务对齐中的奖励稀疏与梯度干扰问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 流匹配 策略蒸馏 多任务对齐 文生图模型 强化学习 模型后训练

📋 核心要点

  1. 针对流匹配模型在多任务对齐中存在的奖励稀疏、梯度干扰及指标竞争导致的“跷跷板效应”问题。
  2. 提出Flow-OPD框架,通过两阶段对齐策略,利用专家教师模型进行在线策略蒸馏,实现异构任务的统一整合。
  3. 实验表明该方法在GenEval和OCR任务上大幅提升性能,同时保持了图像保真度与人类偏好对齐,并实现超越教师的性能。

📝 摘要(中文)

现有的流匹配(FM)文生图模型在多任务对齐中面临两大瓶颈:标量奖励导致的奖励稀疏性,以及联合优化异构目标产生的梯度干扰,这导致了指标间的“跷跷板效应”和奖励欺骗。受大语言模型领域在线策略蒸馏(OPD)的启发,本文提出了Flow-OPD,这是首个将在线策略蒸馏集成到流匹配模型中的统一后训练框架。Flow-OPD采用两阶段对齐策略:首先通过单奖励GRPO微调培养领域专家教师模型;随后通过基于流的冷启动方案建立稳健的初始策略,并通过在线采样、任务路由标注和轨迹级监督,将异构专长整合至单一学生模型。此外,引入流形锚定正则化(MAR)以防止纯强化学习驱动对齐带来的审美退化。基于Stable Diffusion 3.5 Medium的实验表明,Flow-OPD在GenEval和OCR任务上性能显著提升,且展现出“超越教师”的涌现效应。

🔬 方法详解

问题定义:流匹配模型在多目标对齐时,由于奖励函数通常为标量,难以提供细粒度指导,且不同任务(如审美与OCR)的梯度方向冲突,导致模型在优化过程中出现性能震荡和奖励欺骗。

核心思路:借鉴大模型领域的在线策略蒸馏(OPD),将多任务对齐分解为“专家培养”与“知识蒸馏”两个阶段,通过任务路由和轨迹级监督,将多个专家的能力融合进一个通用模型。

技术框架:第一阶段利用GRPO对不同任务进行专家微调;第二阶段通过流式冷启动建立初始策略,并利用在线采样、任务路由标注和轨迹级监督进行蒸馏,最后通过MAR正则化约束生成质量。

关键创新:引入流形锚定正则化(MAR),利用任务无关的教师模型提供全数据监督,有效解决了强化学习对齐中常见的审美退化问题,确保生成结果在对齐特定目标的同时不偏离高质量流形。

关键设计:采用两阶段对齐策略,结合任务路由标注机制,确保学生模型能够根据不同任务需求动态调整生成策略,同时通过轨迹级监督提升训练的稳定性与收敛效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Flow-OPD在Stable Diffusion 3.5 Medium基础上,将GenEval分数从63提升至92,OCR准确率从59提升至94,整体性能较基线GRPO提升约10个点。实验证明该方法不仅有效缓解了多任务间的指标竞争,还实现了“超越教师”的性能涌现,在保持图像高保真度的同时显著增强了对齐效果。

🎯 应用场景

该研究适用于需要高度可控、多目标对齐的文生图生成场景,如电商海报设计、专业文档排版、艺术创作辅助等。其核心价值在于提供了一种可扩展的对齐范式,能够有效解决通用模型在特定领域(如文字渲染、审美偏好)表现不佳的问题,为构建高性能通用文生图模型提供了技术路径。

📄 摘要(原文)

Existing Flow Matching (FM) text-to-image models suffer from two critical bottlenecks under multi-task alignment: the reward sparsity induced by scalar-valued rewards, and the gradient interference arising from jointly optimizing heterogeneous objectives, which together give rise to a 'seesaw effect' of competing metrics and pervasive reward hacking. Inspired by the success of On-Policy Distillation (OPD) in the large language model community, we propose Flow-OPD, the first unified post-training framework that integrates on-policy distillation into Flow Matching models. Flow-OPD adopts a two-stage alignment strategy: it first cultivates domain-specialized teacher models via single-reward GRPO fine-tuning, allowing each expert to reach its performance ceiling in isolation; it then establishes a robust initial policy through a Flow-based Cold-Start scheme and seamlessly consolidates heterogeneous expertise into a single student via a three-step orchestration of on-policy sampling, task-routing labeling, and dense trajectory-level supervision. We further introduce Manifold Anchor Regularization (MAR), which leverages a task-agnostic teacher to provide full-data supervision that anchors generation to a high-quality manifold, effectively mitigating the aesthetic degradation commonly observed in purely RL-driven alignment. Built upon Stable Diffusion 3.5 Medium, Flow-OPD raises the GenEval score from 63 to 92 and the OCR accuracy from 59 to 94, yielding an overall improvement of roughly 10 points over vanilla GRPO, while preserving image fidelity and human-preference alignment and exhibiting an emergent 'teacher-surpassing' effect. These results establish Flow-OPD as a scalable alignment paradigm for building generalist text-to-image models.