WikiStyle+: A Multimodal Approach to Content-Style Representation Disentanglement for Artistic Image Stylization

📄 arXiv: 2412.14496v2 📥 PDF

作者: Ma Zhuoqi, Zhang Yixuan, You Zejun, Tian Long, Liu Xiyang

分类: cs.CV

发布日期: 2024-12-19 (更新: 2025-04-12)


💡 一句话要点

提出WikiStyle+数据集和解耦扩散模型,实现多模态艺术图像风格迁移

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 艺术图像风格迁移 多模态学习 内容风格解耦 扩散模型 Q-Formers 交叉注意力 WikiStyle+数据集

📋 核心要点

  1. 现有风格迁移方法依赖图像监督,限制了模型对多模态风格和内容输入的处理能力,且内容解耦不彻底。
  2. 论文提出基于多模态数据集WikiStyle+的解耦表示引导扩散模型,利用Q-Formers学习解耦表示。
  3. 实验结果表明,该方法能更彻底地解耦内容和风格,实现更精细且符合参考风格艺术特征的风格迁移。

📝 摘要(中文)

艺术图像风格迁移旨在利用文本或图像提供的内容,并以目标风格进行渲染。内容和风格的解耦是获得满意结果的关键。然而,当前的内容和风格解耦方法主要依赖于图像监督,导致两个问题:1) 模型仅支持单一模态的风格或内容输入;2) 解耦不完全,导致参考图像的内容泄露。为了解决上述问题,本文提出了一种多模态方法,用于艺术图像风格迁移中的内容-风格解耦。我们构建了一个WikiStyle+数据集,其中包含带有相应文本描述的艺术作品,用于风格和内容。基于该多模态数据集,我们提出了一种解耦表示引导的扩散模型。解耦表示首先由Q-Formers学习,然后使用可学习的多步交叉注意力层注入到预训练的扩散模型中。实验结果表明,我们的方法在多模态监督下实现了参考图像中内容和风格的彻底解耦,从而能够进行更精细的风格迁移,使其与参考风格的艺术特征对齐。我们的方法代码将在接收后提供。

🔬 方法详解

问题定义:现有艺术图像风格迁移方法主要依赖图像监督,导致模型无法同时处理文本和图像两种模态的风格或内容输入。此外,现有方法在内容和风格的解耦方面不够彻底,容易出现内容泄露,影响最终的风格迁移效果。

核心思路:论文的核心思路是构建一个多模态数据集WikiStyle+,并在此基础上训练一个解耦表示引导的扩散模型。通过多模态数据,模型可以学习到更彻底的内容和风格解耦表示。然后,利用这些解耦表示来指导扩散模型的生成过程,从而实现更精细的风格迁移。

技术框架:整体框架包含两个主要部分:1) WikiStyle+数据集的构建;2) 解耦表示引导的扩散模型。首先,使用Q-Formers从多模态数据中学习内容和风格的解耦表示。然后,将这些解耦表示通过可学习的多步交叉注意力层注入到预训练的扩散模型中,以控制生成过程。

关键创新:论文的关键创新在于:1) 构建了WikiStyle+多模态数据集,为多模态风格迁移提供了数据基础;2) 提出了基于Q-Formers的解耦表示学习方法,能够有效提取内容和风格的独立表示;3) 使用可学习的多步交叉注意力层将解耦表示注入扩散模型,实现了对生成过程的精细控制。

关键设计:Q-Formers的具体结构未知,但其目标是学习内容和风格的解耦表示。扩散模型采用预训练模型,并添加可学习的多步交叉注意力层,用于融合解耦表示。损失函数的设计未知,但应包含保证内容一致性和风格迁移效果的项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了所提出方法的有效性,表明该方法能够更彻底地解耦内容和风格,并生成更符合参考风格艺术特征的图像。虽然具体的性能数据和对比基线未知,但摘要强调了该方法在多模态监督下实现了参考图像中内容和风格的彻底解耦。

🎯 应用场景

该研究成果可应用于艺术创作、图像编辑、虚拟现实等领域。例如,用户可以通过输入文本描述或上传图像来指定内容和风格,从而快速生成具有特定艺术风格的图像。该技术还可以用于个性化图像生成、艺术教育和文化遗产保护等方面,具有广泛的应用前景。

📄 摘要(原文)

Artistic image stylization aims to render the content provided by text or image with the target style, where content and style decoupling is the key to achieve satisfactory results. However, current methods for content and style disentanglement primarily rely on image supervision, which leads to two problems: 1) models can only support one modality for style or content input;2) incomplete disentanglement resulting in content leakage from the reference image. To address the above issues, this paper proposes a multimodal approach to content-style disentanglement for artistic image stylization. We construct a \textit{WikiStyle+} dataset consists of artworks with corresponding textual descriptions for style and content. Based on the multimodal dataset, we propose a disentangled representations-guided diffusion model. The disentangled representations are first learned by Q-Formers and then injected into a pre-trained diffusion model using learnable multi-step cross-attention layers. Experimental results show that our method achieves a thorough disentanglement of content and style in reference images under multimodal supervision, thereby enabling more refined stylization that aligns with the artistic characteristics of the reference style. The code of our method will be available upon acceptance.