Bridging Text and Image for Artist Style Transfer via Contrastive Learning

📄 arXiv: 2410.09566v2 📥 PDF

作者: Zhi-Song Liu, Li-Wen Wang, Jun Xiao, Vicky Kalogeiton

分类: cs.CV, cs.HC

发布日期: 2024-10-12 (更新: 2024-12-06)

备注: 18 pages, 8 figures. arXiv admin note: substantial text overlap with arXiv:2202.13562


💡 一句话要点

提出基于对比学习的CLAST模型,实现文本驱动的艺术风格迁移。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图像风格迁移 文本驱动 对比学习 CLIP模型 状态空间模型

📋 核心要点

  1. 现有图像风格迁移方法依赖参考图像,缺乏灵活性,且难以描述抽象风格。
  2. 提出CLAST模型,利用对比学习对齐图像-文本特征,实现文本驱动的风格迁移。
  3. 实验表明,CLAST在艺术风格迁移上优于现有方法,且速度快,无需微调。

📝 摘要(中文)

图像风格迁移近年来备受关注。尽管取得了显著成果,但它需要额外的风格图像作为参考,这使得它不够灵活和方便。使用文本是描述风格最自然的方式。更重要的是,文本可以描述隐式的抽象风格,例如特定艺术家或艺术运动的风格。在本文中,我们提出了一种用于艺术风格迁移的对比学习方法(CLAST),该方法利用先进的图像-文本编码器来控制任意风格迁移。我们引入了一种监督对比训练策略,以有效地从图像-文本模型(即CLIP)中提取风格描述,从而使风格化与文本描述对齐。为此,我们还提出了一种新颖而高效的基于adaLN的状态空间模型,用于探索风格-内容融合。最终,我们实现了文本驱动的图像风格迁移。大量实验表明,我们的方法优于最先进的艺术风格迁移方法。更重要的是,它不需要在线微调,并且可以在0.03秒内渲染512x512的图像。

🔬 方法详解

问题定义:现有的图像风格迁移方法主要依赖于额外的风格图像作为参考,这限制了其灵活性和适用性。此外,使用图像难以表达抽象的艺术风格,例如特定艺术家的风格或艺术流派。因此,如何利用文本描述来驱动图像风格迁移,特别是抽象风格的迁移,是一个具有挑战性的问题。

核心思路:本文的核心思路是利用对比学习,将图像的风格特征与文本描述的风格特征对齐。通过训练一个图像-文本编码器(例如CLIP),使得具有相同风格的图像和文本在特征空间中更接近,而具有不同风格的图像和文本在特征空间中更远离。这样,就可以通过文本描述来控制图像的风格迁移。

技术框架:CLAST模型的整体框架包括以下几个主要模块:1) 图像-文本编码器:用于提取图像和文本的特征表示,本文使用CLIP模型。2) 对比学习模块:用于训练图像-文本编码器,使其能够有效地提取风格描述。3) 风格-内容融合模块:用于将风格特征和内容特征融合,生成风格化的图像。本文提出了一种基于adaLN的状态空间模型来实现风格-内容融合。4) 图像解码器:用于将融合后的特征解码为图像。

关键创新:本文最重要的技术创新点在于提出了基于对比学习的风格迁移方法,以及新颖的adaLN状态空间模型。对比学习使得模型能够有效地从图像-文本对中学习风格表示,而adaLN状态空间模型则能够有效地进行风格-内容融合。与现有方法相比,该方法不需要额外的风格图像作为参考,并且可以处理抽象的艺术风格。

关键设计:在对比学习中,使用了监督对比损失函数,以确保具有相同风格的图像和文本在特征空间中更接近。adaLN状态空间模型使用自适应层归一化(adaLN)来控制风格特征的注入。具体来说,adaLN根据风格特征动态地调整层归一化的参数。在训练过程中,使用了Adam优化器,学习率设置为1e-4。图像大小调整为512x512。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CLAST模型在艺术风格迁移任务上优于现有的最先进方法。该模型能够在0.03秒内渲染512x512的图像,且无需在线微调。与需要参考图像的风格迁移方法相比,CLAST模型具有更高的灵活性和适用性。此外,CLAST模型能够处理抽象的艺术风格,例如特定艺术家的风格或艺术流派。

🎯 应用场景

该研究成果可应用于艺术创作、图像编辑、虚拟现实等领域。例如,用户可以通过输入文本描述,快速生成具有特定艺术风格的图像。此外,该技术还可以用于增强现实应用,例如将用户的照片转换为特定艺术家的风格,并实时显示在用户的设备上。未来,该技术有望在文化创意产业中发挥重要作用。

📄 摘要(原文)

Image style transfer has attracted widespread attention in the past few years. Despite its remarkable results, it requires additional style images available as references, making it less flexible and inconvenient. Using text is the most natural way to describe the style. More importantly, text can describe implicit abstract styles, like styles of specific artists or art movements. In this paper, we propose a Contrastive Learning for Artistic Style Transfer (CLAST) that leverages advanced image-text encoders to control arbitrary style transfer. We introduce a supervised contrastive training strategy to effectively extract style descriptions from the image-text model (i.e., CLIP), which aligns stylization with the text description. To this end, we also propose a novel and efficient adaLN based state space models that explore style-content fusion. Finally, we achieve a text-driven image style transfer. Extensive experiments demonstrate that our approach outperforms the state-of-the-art methods in artistic style transfer. More importantly, it does not require online fine-tuning and can render a 512x512 image in 0.03s.