P-Guide: Parameter-Efficient Prior Steering for Single-Pass CFG Inference

📄 arXiv: 2605.06124v1 📥 PDF

作者: Xin Peng, Ang Gao

分类: cs.AI

发布日期: 2026-05-07


💡 一句话要点

提出P-Guide框架:通过初始潜空间调制实现单次推理的无分类器引导(CFG)

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 流匹配 无分类器引导 生成模型 推理加速 潜空间调制 异方差建模

📋 核心要点

  1. 现有CFG方法在采样过程中需进行双次前向传播,导致计算开销巨大,限制了实时生成应用。
  2. P-Guide通过在初始潜空间进行调制,利用一阶近似实现对生成过程的引导,无需采样阶段的额外计算。
  3. 实验证明该方法在保持生成质量与提示词对齐效果的同时,显著降低了约50%的推理延迟。

📝 摘要(中文)

无分类器引导(CFG)对于流匹配(Flow Matching)中的高保真条件生成至关重要,但它要求在每个采样步骤进行两次前向传播,导致了显著的计算开销。本文提出了P-Guide框架,通过仅调制初始潜状态,实现了单次推理的高质量引导。研究进一步证明,在一阶近似下,P-Guide等价于CFG,能够在无需采样过程中显式外推速度场的情况下,从先验空间引导生成过程。此外,本文探讨了同方差和异方差先验,发现联合建模均值和方差能够实现自适应损失衰减,并提高对数据不确定性的鲁棒性。大量实验表明,P-Guide在保持与标准双通道CFG基线相当的保真度和提示词对齐能力的同时,将推理延迟降低了约50%。

🔬 方法详解

问题定义:CFG通过在每个采样步计算条件与无条件得分的差值来提升生成质量,但这种双通道推理机制导致计算量翻倍,成为高分辨率或实时生成任务中的主要性能瓶颈。

核心思路:P-Guide的核心思想是将引导过程从采样阶段的“动态外推”转化为“初始状态调制”。通过数学推导证明,在特定近似条件下,对初始潜变量的偏移等价于在采样过程中对速度场的引导。

技术框架:该框架主要包含先验建模模块与初始状态调制器。系统首先对数据分布进行建模,通过学习均值与方差(支持异方差建模),在推理开始前计算出最优的初始潜状态偏移量,从而在单次前向传播中完成引导。

关键创新:最重要的创新在于将引导逻辑从采样循环中解耦,通过一阶近似证明了初始状态调制与CFG的等价性,从而彻底消除了采样过程中的冗余计算。

关键设计:引入了异方差先验建模,通过联合优化均值和方差实现自适应损失衰减;设计了特定的调制函数,确保在不改变模型权重的前提下,仅通过输入端的微调即可实现对生成轨迹的精确控制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,P-Guide在多个主流数据集上实现了与标准双通道CFG相当的FID(Fréchet Inception Distance)和CLIP分数,证明了其在保真度和语义对齐方面的竞争力。最显著的优势在于推理延迟降低了约50%,且在处理具有高不确定性的复杂提示词时,异方差建模带来的鲁棒性提升尤为明显,优于传统的固定方差基线。

🎯 应用场景

该技术适用于对推理速度要求极高的生成式AI应用,如实时文生图、交互式视频生成及边缘设备上的轻量化部署。通过降低计算成本,P-Guide能够显著提升大规模生成模型的服务效率,降低算力成本,并推动高保真生成模型在移动端或实时流媒体场景中的落地应用。

📄 摘要(原文)

Classifier-Free Guidance (CFG) is essential for high-fidelity conditional generation in flow matching, yet it imposes significant computational overhead by requiring dual forward passes at each sampling step. In this work, we address this bottleneck by introducing \textbf{P-Guide}, a framework that achieves high-quality guidance through a single inference pass by modulating only the initial latent state. We further show that, under a first-order approximation, P-Guide is equivalent to CFG in the sense that it steers generation from the prior space, without requiring explicit velocity field extrapolation during sampling. We consider both homoscedastic and \textbf{heteroscedastic} priors, and find that jointly modeling the mean and variance enables adaptive loss attenuation and improved robustness to data uncertainty. Extensive experiments demonstrate that P-Guide reduces inference latency by approximately 50\% while maintaining fidelity and prompt alignment competitive with standard dual-pass CFG baselines.