EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM
作者: Zhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li
分类: cs.CV
发布日期: 2024-12-12
备注: Tech report
💡 一句话要点
EasyRef:利用多模态LLM实现扩散模型的多参考图像泛化生成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 多参考图像生成 多模态LLM 零样本泛化 图像理解
📋 核心要点
- 现有无微调方法通过平均图像嵌入来编码多个参考图像,缺乏图像间的交互,无法捕获一致的视觉元素。
- EasyRef利用多模态LLM理解多个参考图像,提取一致的视觉元素,并通过适配器注入扩散模型,实现零样本泛化。
- 该方法引入高效参考聚合策略和渐进式训练方案,降低计算成本,增强细节保留,并在MRBench基准上表现优异。
📝 摘要(中文)
本文提出了一种名为EasyRef的即插即用方法,旨在使扩散模型能够以多个参考图像和文本提示为条件进行生成。为了有效利用多个图像中的一致视觉元素,该方法利用多模态大型语言模型(MLLM)的多图像理解和指令遵循能力,提示其根据指令捕获一致的视觉元素。此外,通过适配器将MLLM的表示注入到扩散过程中,可以轻松泛化到未见过的领域,挖掘未见数据中的一致视觉元素。为了降低计算成本并增强精细细节的保留,引入了一种高效的参考聚合策略和渐进式训练方案。最后,提出了一个新的多参考图像生成基准MRBench。实验结果表明,EasyRef超越了诸如IP-Adapter之类的无微调方法和诸如LoRA之类的微调方法,在各种领域中实现了卓越的美学质量和强大的零样本泛化能力。
🔬 方法详解
问题定义:论文旨在解决扩散模型在多参考图像条件下生成任务中的泛化性问题。现有方法,如直接平均图像嵌入,无法有效捕捉多个参考图像之间的一致性视觉元素。而基于微调的方法,如LoRA,虽然可以提取一致性元素,但需要为每个图像组进行单独的微调,泛化能力受限。
核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)强大的多图像理解和指令遵循能力,将多个参考图像的信息进行融合,提取出一致的视觉元素。然后,通过适配器将MLLM提取的视觉信息注入到扩散模型中,从而实现对多个参考图像的有效利用和泛化。
技术框架:EasyRef的整体框架包括以下几个主要模块:1) 多参考图像输入;2) MLLM特征提取:利用MLLM对多个参考图像进行理解,并根据指令提取一致的视觉元素;3) 适配器注入:将MLLM提取的特征通过适配器注入到扩散模型的不同层中,以指导图像生成;4) 扩散模型生成:利用注入了参考图像信息的扩散模型生成目标图像。
关键创新:EasyRef的关键创新在于利用MLLM进行多参考图像的理解和特征提取,并将其与扩散模型相结合。这种方法避免了传统方法中图像嵌入的简单平均,能够更有效地捕捉多个参考图像之间的一致性视觉元素,并实现更好的泛化能力。此外,提出的高效参考聚合策略和渐进式训练方案也降低了计算成本,提高了生成质量。
关键设计:在MLLM特征提取阶段,论文使用了特定的prompt来引导MLLM提取一致的视觉元素。在适配器注入阶段,论文采用了多层适配器,并将MLLM的特征注入到扩散模型的不同层中,以实现更精细的控制。此外,论文还设计了一种渐进式训练方案,逐步增加训练难度,以提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EasyRef在MRBench基准测试中超越了IP-Adapter和LoRA等方法,在美学质量和零样本泛化能力方面均取得了显著提升。具体来说,EasyRef在用户偏好度调查中获得了更高的评分,表明其生成的图像更符合人类审美。此外,EasyRef在未见过的领域也表现出了良好的泛化能力,证明了其方法的有效性。
🎯 应用场景
EasyRef具有广泛的应用前景,例如:个性化图像生成,用户可以提供多个参考图像来定制生成图像的风格和内容;创意设计,设计师可以利用多个灵感来源生成新的设计方案;图像编辑,用户可以通过参考图像来指导图像编辑过程。该研究有望推动扩散模型在实际应用中的普及。
📄 摘要(原文)
Significant achievements in personalization of diffusion models have been witnessed. Conventional tuning-free methods mostly encode multiple reference images by averaging their image embeddings as the injection condition, but such an image-independent operation cannot perform interaction among images to capture consistent visual elements within multiple references. Although the tuning-based Low-Rank Adaptation (LoRA) can effectively extract consistent elements within multiple images through the training process, it necessitates specific finetuning for each distinct image group. This paper introduces EasyRef, a novel plug-and-play adaptation method that enables diffusion models to be conditioned on multiple reference images and the text prompt. To effectively exploit consistent visual elements within multiple images, we leverage the multi-image comprehension and instruction-following capabilities of the multimodal large language model (MLLM), prompting it to capture consistent visual elements based on the instruction. Besides, injecting the MLLM's representations into the diffusion process through adapters can easily generalize to unseen domains, mining the consistent visual elements within unseen data. To mitigate computational costs and enhance fine-grained detail preservation, we introduce an efficient reference aggregation strategy and a progressive training scheme. Finally, we introduce MRBench, a new multi-reference image generation benchmark. Experimental results demonstrate EasyRef surpasses both tuning-free methods like IP-Adapter and tuning-based methods like LoRA, achieving superior aesthetic quality and robust zero-shot generalization across diverse domains.