Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment
作者: Huayu Chen, Hang Su, Peize Sun, Jun Zhu
分类: cs.CV, cs.LG, eess.IV
发布日期: 2024-10-12
🔗 代码/项目: GITHUB
💡 一句话要点
提出条件对比对齐(CCA),实现无引导的自回归视觉生成,提升生成质量。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 自回归生成 视觉生成 条件对比学习 无引导生成 多模态对齐
📋 核心要点
- 自回归多模态生成中,分类器无引导(CFG)引入了语言和视觉内容的不一致性,与模态统一的设计理念冲突。
- 提出条件对比对齐(CCA),通过微调预训练模型直接拟合目标分布,避免了改变采样过程的引导方法。
- 实验表明,CCA仅需少量微调即可显著提升无引导性能,与引导采样方法相当,并能实现多样性与保真度的权衡。
📝 摘要(中文)
分类器无引导(CFG)是提升视觉生成模型样本质量的关键技术。然而,在自回归(AR)多模态生成中,CFG引入了语言和视觉内容之间的设计不一致性,这与统一不同模态以进行视觉AR的设计理念相悖。受语言模型对齐方法的启发,我们提出了条件对比对齐(CCA),以促进高性能的无引导AR视觉生成,并分析了其与引导采样方法之间的理论联系。与通过改变采样过程以达到理想采样分布的引导方法不同,CCA直接微调预训练模型以拟合相同的分布目标。实验结果表明,CCA只需在预训练数据集上进行一个epoch的微调(约占预训练epoch的1%),即可显著提高所有测试模型的无引导性能,与引导采样方法相当。这大大减少了AR视觉生成中对引导采样的需求,并将采样成本降低了一半。此外,通过调整训练参数,CCA可以实现与CFG类似的样本多样性和保真度之间的权衡。这通过实验证实了以语言为目标的对齐方法和以视觉为目标的引导方法之间存在很强的理论联系,统一了两个先前独立的研究领域。代码和模型权重:https://github.com/thu-ml/CCA。
🔬 方法详解
问题定义:论文旨在解决自回归(AR)视觉生成模型中,使用分类器无引导(CFG)方法带来的语言和视觉内容不一致性问题。现有CFG方法通过改变采样过程来提升生成质量,但破坏了多模态统一性,增加了计算成本。
核心思路:论文的核心思路是借鉴语言模型对齐方法,直接微调预训练模型,使其输出分布与理想的引导采样分布对齐。这样可以在不改变采样过程的前提下,提升生成质量,保持多模态一致性,并降低计算成本。
技术框架:CCA的技术框架主要包括以下几个步骤:1. 使用预训练的自回归视觉生成模型。2. 构建条件对比学习目标,鼓励模型在给定条件下生成高质量的视觉内容。3. 使用预训练数据集对模型进行微调,优化对比学习目标。4. 在推理阶段,直接使用微调后的模型进行无引导采样。
关键创新:CCA的关键创新在于提出了条件对比对齐(CCA)方法,将语言模型对齐的思想引入到视觉生成领域。与传统的引导方法不同,CCA不改变采样过程,而是通过微调模型来拟合目标分布,从而避免了多模态不一致性问题。此外,CCA还建立了语言对齐和视觉引导方法之间的理论联系。
关键设计:CCA的关键设计包括:1. 对比学习目标:使用InfoNCE损失函数,鼓励模型生成与条件相关的正样本,并区分与条件无关的负样本。2. 微调策略:使用预训练数据集进行少量epoch的微调,以避免过拟合。3. 参数调整:通过调整对比学习的温度参数,可以控制生成样本的多样性和保真度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CCA只需在预训练数据集上进行一个epoch的微调,即可显著提高所有测试模型的无引导性能,与引导采样方法相当。这大大减少了AR视觉生成中对引导采样的需求,并将采样成本降低了一半。此外,通过调整训练参数,CCA可以实现与CFG类似的样本多样性和保真度之间的权衡。
🎯 应用场景
该研究成果可应用于图像生成、视频生成、图像编辑等领域,尤其是在需要多模态信息融合的场景下,例如根据文本描述生成图像或视频。该方法能够提升生成质量,降低计算成本,并保持多模态内容的一致性,具有重要的实际应用价值和潜在的商业前景。
📄 摘要(原文)
Classifier-Free Guidance (CFG) is a critical technique for enhancing the sample quality of visual generative models. However, in autoregressive (AR) multi-modal generation, CFG introduces design inconsistencies between language and visual content, contradicting the design philosophy of unifying different modalities for visual AR. Motivated by language model alignment methods, we propose \textit{Condition Contrastive Alignment} (CCA) to facilitate guidance-free AR visual generation with high performance and analyze its theoretical connection with guided sampling methods. Unlike guidance methods that alter the sampling process to achieve the ideal sampling distribution, CCA directly fine-tunes pretrained models to fit the same distribution target. Experimental results show that CCA can significantly enhance the guidance-free performance of all tested models with just one epoch of fine-tuning ($\sim$ 1\% of pretraining epochs) on the pretraining dataset, on par with guided sampling methods. This largely removes the need for guided sampling in AR visual generation and cuts the sampling cost by half. Moreover, by adjusting training parameters, CCA can achieve trade-offs between sample diversity and fidelity similar to CFG. This experimentally confirms the strong theoretical connection between language-targeted alignment and visual-targeted guidance methods, unifying two previously independent research fields. Code and model weights: https://github.com/thu-ml/CCA.