Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation

📄 arXiv: 2504.14011v1 📥 PDF

作者: Fulvio Sanguigni, Davide Morelli, Marcella Cornia, Rita Cucchiara

分类: cs.CV, cs.AI, cs.MM

发布日期: 2025-04-18

备注: IJCNN 2025


💡 一句话要点

提出Fashion-RAG,通过检索增强生成实现多模态时尚图像编辑。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时尚图像编辑 检索增强生成 多模态学习 文本反演 Stable Diffusion

📋 核心要点

  1. 现有虚拟试穿方法依赖于特定的服装输入,这在用户仅提供文本描述的实际场景中并不实用。
  2. Fashion-RAG通过检索与文本描述匹配的服装图像,并利用文本反演技术将这些图像融入生成过程,实现定制化编辑。
  3. 实验表明,Fashion-RAG在Dress Code数据集上优于现有方法,能有效捕捉服装的细节特征。

📝 摘要(中文)

本文提出Fashion-RAG,一种新颖的检索增强生成方法,用于实现基于文本描述的定制化时尚物品图像编辑。该方法通过检索与用户文本偏好匹配的多个服装图像,并结合检索到的服装属性生成个性化图像。Fashion-RAG利用文本反演技术,将检索到的服装图像投影到Stable Diffusion文本编码器的文本嵌入空间,从而将检索到的元素无缝集成到生成过程中。在Dress Code数据集上的实验结果表明,Fashion-RAG在定性和定量方面均优于现有方法,能够有效地捕捉检索到的服装的细粒度视觉细节。据我们所知,这是第一个专门为多模态时尚图像编辑引入检索增强生成方法的工作。

🔬 方法详解

问题定义:论文旨在解决多模态时尚图像编辑中,用户仅提供文本描述而缺乏具体服装图像输入的问题。现有虚拟试穿方法大多依赖于特定的服装图像,这限制了其在实际应用中的灵活性和适用性。用户通常更倾向于使用文本描述来表达对服装款式的偏好,因此需要一种能够根据文本描述生成或编辑服装图像的方法。

核心思路:Fashion-RAG的核心思路是利用检索增强生成,即首先根据用户提供的文本描述检索相关的服装图像,然后将检索到的服装图像的信息融入到图像生成过程中。通过这种方式,模型可以学习到文本描述对应的服装风格和细节,从而生成符合用户需求的图像。这种方法结合了检索的准确性和生成的灵活性。

技术框架:Fashion-RAG的整体框架包含以下几个主要模块:1) 文本编码器:将用户输入的文本描述编码成文本嵌入向量。2) 图像检索模块:根据文本嵌入向量,从服装图像数据库中检索出相关的服装图像。3) 文本反演模块:将检索到的服装图像通过文本反演技术投影到文本嵌入空间,得到对应的文本嵌入向量。4) 图像生成模块:利用Stable Diffusion等生成模型,结合原始文本嵌入向量和检索到的服装图像的文本嵌入向量,生成最终的编辑后的服装图像。

关键创新:Fashion-RAG的关键创新在于将检索增强生成方法应用于多模态时尚图像编辑,并利用文本反演技术将检索到的服装图像的信息融入到生成过程中。与传统的虚拟试穿方法相比,Fashion-RAG不需要特定的服装图像输入,只需要用户提供文本描述即可。此外,通过文本反演技术,Fashion-RAG可以更好地控制生成图像的风格和细节。

关键设计:Fashion-RAG的关键设计包括:1) 文本反演损失函数:用于优化文本反演模块,使得生成的文本嵌入向量能够准确地表示检索到的服装图像。2) 图像生成模型的选择:选择Stable Diffusion等先进的生成模型,以保证生成图像的质量和多样性。3) 检索策略:采用合适的检索策略,例如基于余弦相似度的检索,以提高检索的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Fashion-RAG在Dress Code数据集上取得了显著的性能提升。定性结果显示,Fashion-RAG能够生成更符合用户文本描述的服装图像,并捕捉到服装的细粒度视觉细节。定量结果表明,Fashion-RAG在图像质量和文本一致性方面均优于现有方法,具体提升幅度未知。

🎯 应用场景

Fashion-RAG可应用于电商平台的虚拟试穿、个性化服装推荐、时尚设计辅助等领域。用户可以通过文本描述定制服装款式,提升购物体验。设计师可以利用该技术快速生成设计草图,激发创作灵感。该研究有望推动时尚产业的智能化升级,实现更高效、个性化的服装设计和销售。

📄 摘要(原文)

In recent years, the fashion industry has increasingly adopted AI technologies to enhance customer experience, driven by the proliferation of e-commerce platforms and virtual applications. Among the various tasks, virtual try-on and multimodal fashion image editing -- which utilizes diverse input modalities such as text, garment sketches, and body poses -- have become a key area of research. Diffusion models have emerged as a leading approach for such generative tasks, offering superior image quality and diversity. However, most existing virtual try-on methods rely on having a specific garment input, which is often impractical in real-world scenarios where users may only provide textual specifications. To address this limitation, in this work we introduce Fashion Retrieval-Augmented Generation (Fashion-RAG), a novel method that enables the customization of fashion items based on user preferences provided in textual form. Our approach retrieves multiple garments that match the input specifications and generates a personalized image by incorporating attributes from the retrieved items. To achieve this, we employ textual inversion techniques, where retrieved garment images are projected into the textual embedding space of the Stable Diffusion text encoder, allowing seamless integration of retrieved elements into the generative process. Experimental results on the Dress Code dataset demonstrate that Fashion-RAG outperforms existing methods both qualitatively and quantitatively, effectively capturing fine-grained visual details from retrieved garments. To the best of our knowledge, this is the first work to introduce a retrieval-augmented generation approach specifically tailored for multimodal fashion image editing.