EBDM: Exemplar-guided Image Translation with Brownian-bridge Diffusion Models

📄 arXiv: 2410.09802v1 📥 PDF

作者: Eungbean Lee, Somi Jeong, Kwanghoon Sohn

分类: cs.CV, cs.AI

发布日期: 2024-10-13

备注: ECCV 2024

DOI: 10.1007/978-3-031-72624-8_18


💡 一句话要点

提出EBDM,利用布朗桥扩散模型实现示例引导的图像转换

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 图像转换 风格迁移 扩散模型 布朗桥 示例引导

📋 核心要点

  1. 现有示例引导图像转换方法依赖密集对应关系,计算成本高昂,限制了其通用性和性能。
  2. EBDM将图像转换建模为布朗桥扩散过程,仅以示例图像为条件,实现风格迁移,无需密集对应。
  3. EBDM通过全局编码器、示例网络和注意力模块提取示例风格,实验证明其优于现有方法。

📝 摘要(中文)

本文提出了一种名为EBDM(Exemplar-guided Image Translation with Brownian-Bridge Diffusion Models)的新方法,用于示例引导的图像转换。该任务旨在合成既符合结构控制又符合风格示例的逼真图像,从而增强用户对风格操作的控制。以往方法主要依赖于建立跨域输入之间的密集对应关系,但这导致二次方的内存和计算成本,限制了通用性和性能。EBDM将该任务建模为随机布朗桥过程,即具有固定初始点(结构控制)的扩散过程,并在仅以给定示例图像为条件的情况下转换为相应的逼真图像。为了有效地引导扩散过程向示例的风格靠拢,我们设计了全局编码器、示例网络和示例注意力模块,以整合示例图像的全局和详细纹理信息。利用布朗桥扩散,该网络可以在仅以示例风格为条件的情况下,从结构控制转换图像,从而实现更鲁棒的训练和推理过程。通过全面的基准评估和视觉结果,证明了我们方法优于现有方法。

🔬 方法详解

问题定义:示例引导的图像转换旨在生成既符合结构控制(例如草图)又具有给定示例图像风格的逼真图像。现有方法主要依赖于在输入图像之间建立密集的像素级对应关系,这导致了巨大的计算和内存开销,尤其是在处理高分辨率图像时,限制了其应用范围和效率。此外,建立准确的密集对应关系本身也是一个具有挑战性的问题,容易受到图像内容差异的影响。

核心思路:EBDM的核心思想是将图像转换过程建模为一个随机布朗桥扩散过程。布朗桥扩散过程是一种特殊的扩散过程,它在扩散过程中同时固定了起始点和终点。在本任务中,起始点对应于结构控制图像,而扩散过程的目标是在给定示例图像风格的条件下,将结构控制图像逐步转换为逼真的图像。通过这种方式,EBDM避免了显式地建立密集对应关系,而是通过扩散过程隐式地学习了结构和风格之间的映射关系。

技术框架:EBDM的整体框架包括以下几个主要模块:1) 全局编码器:用于提取结构控制图像的全局特征。2) 示例网络:用于提取示例图像的风格特征。3) 示例注意力模块:用于将示例图像的风格特征融入到扩散过程中,引导生成图像的风格与示例图像一致。4) 扩散模型:基于U-Net架构,负责执行从噪声到图像的逐步去噪过程。在训练阶段,模型学习如何根据结构控制图像和示例图像的风格特征,逐步去除图像中的噪声,最终生成逼真的图像。在推理阶段,模型从随机噪声开始,逐步去噪,最终生成具有目标风格的图像。

关键创新:EBDM的关键创新在于将布朗桥扩散过程应用于示例引导的图像转换任务。与传统的扩散模型不同,布朗桥扩散过程能够更好地控制生成图像的结构,同时保证生成图像的风格与示例图像一致。此外,EBDM提出的示例注意力模块能够有效地将示例图像的风格特征融入到扩散过程中,从而提高生成图像的风格一致性。

关键设计:EBDM的关键设计包括:1) 布朗桥扩散过程的参数化:EBDM使用了一种基于方差保持的扩散过程,并对扩散过程的方差进行了精心设计,以保证生成图像的质量。2) 示例注意力模块的设计:EBDM的示例注意力模块采用了一种自注意力机制,能够有效地捕捉示例图像中的风格特征,并将其融入到扩散过程中。3) 损失函数的设计:EBDM使用了多种损失函数,包括L1损失、感知损失和风格损失,以保证生成图像的质量和风格一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EBDM在多个基准数据集上取得了优于现有方法的性能。例如,在COCO-Stuff数据集上,EBDM在FID指标上取得了显著的提升,表明其生成的图像具有更高的质量和逼真度。此外,EBDM在风格一致性方面也表现出色,能够生成与示例图像风格高度一致的图像。消融实验验证了EBDM中各个模块的有效性。

🎯 应用场景

EBDM在图像编辑、风格迁移、艺术创作等领域具有广泛的应用前景。例如,用户可以使用EBDM将草图转换为具有特定艺术风格的图像,或者将照片转换为具有不同光照条件的图像。此外,EBDM还可以用于生成具有特定风格的虚拟人物或场景,从而为游戏开发和电影制作提供便利。未来,EBDM有望应用于更多领域,例如医学图像分析和遥感图像处理。

📄 摘要(原文)

Exemplar-guided image translation, synthesizing photo-realistic images that conform to both structural control and style exemplars, is attracting attention due to its ability to enhance user control over style manipulation. Previous methodologies have predominantly depended on establishing dense correspondences across cross-domain inputs. Despite these efforts, they incur quadratic memory and computational costs for establishing dense correspondence, resulting in limited versatility and performance degradation. In this paper, we propose a novel approach termed Exemplar-guided Image Translation with Brownian-Bridge Diffusion Models (EBDM). Our method formulates the task as a stochastic Brownian bridge process, a diffusion process with a fixed initial point as structure control and translates into the corresponding photo-realistic image while being conditioned solely on the given exemplar image. To efficiently guide the diffusion process toward the style of exemplar, we delineate three pivotal components: the Global Encoder, the Exemplar Network, and the Exemplar Attention Module to incorporate global and detailed texture information from exemplar images. Leveraging Bridge diffusion, the network can translate images from structure control while exclusively conditioned on the exemplar style, leading to more robust training and inference processes. We illustrate the superiority of our method over competing approaches through comprehensive benchmark evaluations and visual results.