Follow the Mean: Reference-Guided Flow Matching

📄 arXiv: 2605.10302v1 📥 PDF

作者: Pedro M. P. Curvo, Maksim Zhdanov, Floor Eijkelboom, Jan-Willem van de Meent

分类: cs.LG

发布日期: 2026-05-11


💡 一句话要点

提出基于参考引导的流匹配(Reference-Guided Flow Matching)框架,实现无需微调的生成模型可控性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 流匹配 可控生成 预训练模型 推理时引导 半参数学习 生成式人工智能

📋 核心要点

  1. 现有可控生成方法过度依赖参数微调、辅助网络或计算昂贵的测试时搜索,缺乏灵活性。
  2. 论文提出利用流匹配中速度场由端点均值决定的特性,通过动态调整参考集来引导生成过程。
  3. 实验表明该方法在无需微调的情况下,能有效控制生成内容的风格与结构,并达到基线模型性能。

📝 摘要(中文)

现有的可控生成方法通常依赖于微调、辅助网络或测试时搜索。本文指出流匹配(Flow Matching)提供了一种全新的控制接口:通过示例进行自适应。对于确定性插值,速度场完全由条件端点均值决定;通过移动该均值即可改变流的轨迹。基于此,本文提出了一种简单的可控生成原则:通过改变模型所遵循的参考集来引导预训练模型。研究实现了两种形式:一是“参考均值引导”(Reference-Mean Guidance),无需训练,通过计算参考库的闭式端点均值修正,直接应用于冻结的FLUX.2-klein模型,在保持提示词、种子和权重不变的情况下实现对颜色、身份、风格和结构的控制;二是“半参数引导”(Semi-Parametric Guidance),通过显式均值锚点和学习到的残差细化器,在AFHQv2数据集上达到无条件DiT-B/4的质量,并支持推理时动态切换参考集。这些结果表明,生成模型可以通过数据而非参数更新来实现自适应。

🔬 方法详解

问题定义:现有生成模型(如DiT)的可控性通常需要通过LoRA微调或复杂的推理时引导实现,这限制了模型在动态场景下的灵活性,且微调过程往往会破坏预训练模型的泛化能力。

核心思路:利用确定性流匹配中速度场与端点均值的强耦合关系。由于流的轨迹由起点到终点的均值决定,通过在推理阶段引入参考集(Reference Set)来偏移目标均值,即可在不改变模型权重的前提下实现对生成结果的精准控制。

技术框架:该方法包含两种实现路径:一是参考均值引导,直接计算参考样本的均值偏移并作用于冻结的预训练模型;二是半参数引导,引入一个显式的均值锚点(Mean Anchor)和一个轻量级的残差细化器(Residual Refiner),将控制逻辑参数化并进行训练。

关键创新:将“控制”从参数空间转移到“数据空间”。通过操纵参考集而非模型权重,实现了即插即用的生成控制,本质上是将生成任务转化为一种基于示例的条件分布偏移问题。

关键设计:核心在于闭式端点均值修正公式。在参考均值引导中,通过计算参考库的统计特征直接修正速度场;在半参数引导中,设计了残差细化器来补偿均值偏移带来的分布偏差,确保生成质量与多样性的平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验证明,该方法在冻结FLUX.2-klein(4B)模型的情况下,仅通过参考集引导即可实现对生成结果的精细控制。在AFHQv2数据集上,半参数引导方案在保持推理时参考集可切换性的同时,达到了与无条件DiT-B/4相当的生成质量,验证了该方法在性能与灵活性上的显著优势。

🎯 应用场景

该技术适用于需要高度定制化生成的场景,如艺术创作中的风格迁移、工业设计中的结构控制、以及医疗影像中基于特定病例特征的生成。其无需微调的特性极大地降低了部署成本,使得模型能够通过简单的参考图库实现即时、动态的个性化定制,在多模态内容创作领域具有广阔的应用前景。

📄 摘要(原文)

Existing approaches to controllable generation typically rely on fine-tuning, auxiliary networks, or test-time search. We show that flow matching admits a different control interface: adaptation through examples. For deterministic interpolants, the velocity field is solely governed by a conditional endpoint mean; shifting this mean shifts the flow itself. This yields a simple principle for controllable generation: steer a pretrained model by changing the reference set it follows. We instantiate this idea in two forms. Reference-Mean Guidance is training-free: it computes a closed-form endpoint-mean correction from a reference bank and applies it to a frozen FLUX.2-klein (4B) model, enabling control of color, identity, style, and structure while keeping the prompt, seed, and weights fixed. Semi-Parametric Guidance amortizes the same idea through an explicit mean anchor and learned residual refiner, matching unconditional DiT-B/4 quality on AFHQv2 while allowing the reference set to be swapped at inference time. These results point to a broader direction: generative models that adapt through data, not parameter updates.