Fashion-VDM: Video Diffusion Model for Virtual Try-On

📄 arXiv: 2411.00225v2 📥 PDF

作者: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

分类: cs.CV

发布日期: 2024-10-31 (更新: 2024-11-04)

备注: Accepted to SIGGRAPH Asia 2024

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Fashion-VDM:用于虚拟试穿视频生成的视频扩散模型

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 视频扩散模型 虚拟试穿 视频生成 无分类器引导 时间一致性

📋 核心要点

  1. 现有的视频虚拟试穿方法在服装细节的呈现和时间一致性方面存在不足,难以生成高质量的试穿视频。
  2. Fashion-VDM采用基于扩散模型的架构,并结合分离的无分类器引导和渐进式时间训练策略,提升生成视频的质量和时间一致性。
  3. 实验结果表明,Fashion-VDM在视频虚拟试穿任务上取得了显著的性能提升,达到了新的技术水平。

📝 摘要(中文)

本文提出Fashion-VDM,一种用于生成虚拟试穿视频的视频扩散模型(VDM)。给定一件服装图像和一段人物视频,该方法旨在生成高质量的试穿视频,视频中人物穿着给定的服装,同时保留人物的身份和动作。基于图像的虚拟试穿已经展示了令人印象深刻的结果;然而,现有的视频虚拟试穿(VVT)方法仍然缺乏服装细节和时间一致性。为了解决这些问题,我们提出了一种基于扩散的视频虚拟试穿架构,采用分离的无分类器引导以增加对条件输入的控制,以及一种渐进式时间训练策略,用于单次生成64帧、512像素的视频。我们还证明了联合图像-视频训练对于视频试穿的有效性,尤其是在视频数据有限的情况下。我们的定性和定量实验表明,我们的方法为视频虚拟试穿设定了新的技术水平。

🔬 方法详解

问题定义:论文旨在解决视频虚拟试穿(VVT)问题,即给定服装图像和人物视频,生成人物穿着该服装的视频。现有VVT方法的痛点在于难以同时保证服装细节的真实性和视频的时间一致性,生成的视频质量不高。

核心思路:论文的核心思路是利用视频扩散模型(VDM)强大的生成能力,通过学习服装和人物视频的联合分布,生成高质量的试穿视频。通过引入分离的无分类器引导,可以更好地控制条件输入,从而生成更符合要求的视频。渐进式时间训练策略则有助于提高生成视频的时间一致性。

技术框架:Fashion-VDM的整体架构基于扩散模型,包含前向扩散过程和反向去噪过程。在前向扩散过程中,视频逐渐被加入噪声,直到完全变成噪声。在反向去噪过程中,模型逐步去除噪声,最终生成试穿视频。模型接收服装图像和人物视频作为条件输入,通过分离的无分类器引导来控制生成过程。

关键创新:该论文的关键创新在于将视频扩散模型应用于视频虚拟试穿任务,并提出了分离的无分类器引导和渐进式时间训练策略。分离的无分类器引导可以更灵活地控制条件输入,而渐进式时间训练策略则有助于提高生成视频的时间一致性。此外,论文还探索了联合图像-视频训练的有效性。

关键设计:Fashion-VDM采用U-Net结构的扩散模型,并针对视频数据进行了优化。分离的无分类器引导通过分别控制服装图像和人物视频的条件作用,提高了生成视频的质量。渐进式时间训练策略通过逐步增加训练视频的长度,提高了生成视频的时间一致性。损失函数包括L1损失和感知损失,用于提高生成视频的真实感。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Fashion-VDM在视频虚拟试穿任务上取得了显著的性能提升,相较于现有方法,生成的视频在服装细节和时间一致性方面都有了显著改善。定性和定量实验结果表明,Fashion-VDM为视频虚拟试穿设定了新的技术水平。项目主页提供了更多结果展示:https://johannakarras.github.io/Fashion-VDM。

🎯 应用场景

Fashion-VDM具有广泛的应用前景,例如在线服装零售、虚拟试衣间、个性化视频生成等。用户可以通过该技术在线试穿各种服装,无需实际穿着即可预览效果,从而提高购物体验和效率。此外,该技术还可以用于生成个性化的时尚视频,为用户提供更多的创意空间。

📄 摘要(原文)

We present Fashion-VDM, a video diffusion model (VDM) for generating virtual try-on videos. Given an input garment image and person video, our method aims to generate a high-quality try-on video of the person wearing the given garment, while preserving the person's identity and motion. Image-based virtual try-on has shown impressive results; however, existing video virtual try-on (VVT) methods are still lacking garment details and temporal consistency. To address these issues, we propose a diffusion-based architecture for video virtual try-on, split classifier-free guidance for increased control over the conditioning inputs, and a progressive temporal training strategy for single-pass 64-frame, 512px video generation. We also demonstrate the effectiveness of joint image-video training for video try-on, especially when video data is limited. Our qualitative and quantitative experiments show that our approach sets the new state-of-the-art for video virtual try-on. For additional results, visit our project page: https://johannakarras.github.io/Fashion-VDM.