Follow the Mean: Reference-Guided Flow Matching

作者: Pedro M. P. Curvo, Maksim Zhdanov, Floor Eijkelboom, Jan-Willem van de Meent

分类: cs.LG

发布日期: 2026-05-11

💡 一句话要点

提出基于参考引导的流匹配（Reference-Guided Flow Matching）框架，实现无需微调的生成模型可控性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 流匹配 可控生成 预训练模型 推理时引导 半参数学习 生成式人工智能

📋 核心要点

现有可控生成方法过度依赖参数微调、辅助网络或计算昂贵的测试时搜索，缺乏灵活性。
论文提出利用流匹配中速度场由端点均值决定的特性，通过动态调整参考集来引导生成过程。
实验表明该方法在无需微调的情况下，能有效控制生成内容的风格与结构，并达到基线模型性能。

📝 摘要（中文）

现有的可控生成方法通常依赖于微调、辅助网络或测试时搜索。本文指出流匹配（Flow Matching）提供了一种全新的控制接口：通过示例进行自适应。对于确定性插值，速度场完全由条件端点均值决定；通过移动该均值即可改变流的轨迹。基于此，本文提出了一种简单的可控生成原则：通过改变模型所遵循的参考集来引导预训练模型。研究实现了两种形式：一是“参考均值引导”（Reference-Mean Guidance），无需训练，通过计算参考库的闭式端点均值修正，直接应用于冻结的FLUX.2-klein模型，在保持提示词、种子和权重不变的情况下实现对颜色、身份、风格和结构的控制；二是“半参数引导”（Semi-Parametric Guidance），通过显式均值锚点和学习到的残差细化器，在AFHQv2数据集上达到无条件DiT-B/4的质量，并支持推理时动态切换参考集。这些结果表明，生成模型可以通过数据而非参数更新来实现自适应。

🔬 方法详解

问题定义：现有生成模型（如DiT）的可控性通常需要通过LoRA微调或复杂的推理时引导实现，这限制了模型在动态场景下的灵活性，且微调过程往往会破坏预训练模型的泛化能力。

核心思路：利用确定性流匹配中速度场与端点均值的强耦合关系。由于流的轨迹由起点到终点的均值决定，通过在推理阶段引入参考集（Reference Set）来偏移目标均值，即可在不改变模型权重的前提下实现对生成结果的精准控制。

技术框架：该方法包含两种实现路径：一是参考均值引导，直接计算参考样本的均值偏移并作用于冻结的预训练模型；二是半参数引导，引入一个显式的均值锚点（Mean Anchor）和一个轻量级的残差细化器（Residual Refiner），将控制逻辑参数化并进行训练。

关键创新：将“控制”从参数空间转移到“数据空间”。通过操纵参考集而非模型权重，实现了即插即用的生成控制，本质上是将生成任务转化为一种基于示例的条件分布偏移问题。

关键设计：核心在于闭式端点均值修正公式。在参考均值引导中，通过计算参考库的统计特征直接修正速度场；在半参数引导中，设计了残差细化器来补偿均值偏移带来的分布偏差，确保生成质量与多样性的平衡。

🖼️ 关键图片

📊 实验亮点

实验证明，该方法在冻结FLUX.2-klein（4B）模型的情况下，仅通过参考集引导即可实现对生成结果的精细控制。在AFHQv2数据集上，半参数引导方案在保持推理时参考集可切换性的同时，达到了与无条件DiT-B/4相当的生成质量，验证了该方法在性能与灵活性上的显著优势。

🎯 应用场景

该技术适用于需要高度定制化生成的场景，如艺术创作中的风格迁移、工业设计中的结构控制、以及医疗影像中基于特定病例特征的生成。其无需微调的特性极大地降低了部署成本，使得模型能够通过简单的参考图库实现即时、动态的个性化定制，在多模态内容创作领域具有广阔的应用前景。

📄 摘要（原文）

Existing approaches to controllable generation typically rely on fine-tuning, auxiliary networks, or test-time search. We show that flow matching admits a different control interface: adaptation through examples. For deterministic interpolants, the velocity field is solely governed by a conditional endpoint mean; shifting this mean shifts the flow itself. This yields a simple principle for controllable generation: steer a pretrained model by changing the reference set it follows. We instantiate this idea in two forms. Reference-Mean Guidance is training-free: it computes a closed-form endpoint-mean correction from a reference bank and applies it to a frozen FLUX.2-klein (4B) model, enabling control of color, identity, style, and structure while keeping the prompt, seed, and weights fixed. Semi-Parametric Guidance amortizes the same idea through an explicit mean anchor and learned residual refiner, matching unconditional DiT-B/4 quality on AFHQv2 while allowing the reference set to be swapped at inference time. These results point to a broader direction: generative models that adapt through data, not parameter updates.

Follow the Mean: Reference-Guided Flow Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理