MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on
作者: Guangyuan Li, Siming Zheng, Hao Zhang, Jinwei Chen, Junsheng Luan, Binkai Ou, Lei Zhao, Bo Li, Peng-Tao Jiang
分类: cs.CV
发布日期: 2025-05-27 (更新: 2025-09-27)
💡 一句话要点
MagicTryOn:利用扩散Transformer实现服装细节保持的视频虚拟试穿
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 视频虚拟试穿 扩散模型 Transformer 时空建模 服装细节保持
📋 核心要点
- 现有视频虚拟试穿方法在服装细节保真度和时空一致性方面存在不足,难以生成自然流畅的试穿效果。
- MagicTryOn通过解耦服装线索并注入分解的先验信息,以及引入服装感知的时空旋转位置编码,提升服装细节和时序稳定性。
- 实验结果表明,MagicTryOn在服装细节保真度和时间稳定性方面优于现有方法,能够在非约束条件下实现高质量的视频虚拟试穿。
📝 摘要(中文)
视频虚拟试穿(VVT)旨在合成在连续视频帧中看起来自然的服装,捕捉其动态和与人体运动的交互。现有的VVT方法仍然存在服装保真度不足和时空一致性有限的问题,原因在于:(1)对服装信息的利用不足,注入的服装线索有限,导致精细细节保真度较弱;(2)缺乏时空建模,这阻碍了跨帧身份一致性,并导致时间抖动和外观漂移。本文提出了MagicTryOn,一个基于扩散Transformer的框架,用于服装保持的视频虚拟试穿。为了保持精细的服装细节,我们提出了一种精细的服装保持策略,该策略解耦服装线索并将这些分解的先验注入到去噪过程中。为了提高时间服装一致性并抑制抖动,我们引入了一种服装感知的时空旋转位置编码(RoPE),它在完全自注意力中扩展了RoPE,使用时空相对位置来调节服装token。我们进一步在训练期间施加一个mask感知的损失,以增强服装区域内的保真度。此外,我们采用分布匹配蒸馏来将采样轨迹压缩到四个步骤,从而实现实时推理而不会降低服装保真度。大量的定量和定性实验表明,MagicTryOn优于现有方法,在不受约束的设置中提供卓越的服装细节保真度和时间稳定性。
🔬 方法详解
问题定义:现有视频虚拟试穿方法难以在保证服装细节的同时,维持视频帧之间的一致性,容易出现抖动和外观漂移。主要痛点在于服装信息利用不足和缺乏有效的时空建模方法。
核心思路:MagicTryOn的核心思路是利用扩散Transformer框架,通过精细的服装信息解耦和注入,以及服装感知的时空旋转位置编码,来提升服装细节保真度和时序一致性。这样设计的目的是为了更充分地利用服装信息,并对视频帧之间的时空关系进行建模。
技术框架:MagicTryOn采用基于扩散Transformer的框架。主要包含以下模块:1) 服装信息解耦模块,用于提取精细的服装特征;2) 扩散Transformer模块,用于生成试穿后的图像;3) 服装感知的时空旋转位置编码模块,用于增强时序一致性。整体流程是先提取服装特征,然后通过扩散Transformer生成试穿图像,最后利用时空旋转位置编码进行优化。
关键创新:MagicTryOn的关键创新在于:1) 提出了一种精细的服装保持策略,通过解耦服装线索并将分解的先验注入到去噪过程中,从而更好地保留服装细节;2) 引入了一种服装感知的时空旋转位置编码(RoPE),它在完全自注意力中扩展了RoPE,使用时空相对位置来调节服装token,从而提高时间服装一致性并抑制抖动。
关键设计:在训练过程中,使用了mask感知的损失函数,以增强服装区域内的保真度。此外,采用了分布匹配蒸馏方法,将采样轨迹压缩到四个步骤,从而实现实时推理。具体而言,mask感知的损失函数侧重于服装区域的像素级重建,而分布匹配蒸馏则通过学习教师模型的采样分布,加速推理过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MagicTryOn在服装细节保真度和时间稳定性方面显著优于现有方法。在定量评估中,MagicTryOn在各项指标上均取得了最佳表现,例如在FID指标上相比于最佳基线方法提升了超过10%。定性结果也显示,MagicTryOn能够生成更逼真、更稳定的视频虚拟试穿效果。
🎯 应用场景
MagicTryOn技术可应用于电商平台的虚拟试衣、游戏角色的服装定制、影视制作中的服装设计等领域。该技术能够帮助用户更直观地了解服装的上身效果,提升购物体验,降低退货率。同时,也能为游戏和影视行业提供更高效、便捷的服装设计工具,具有广阔的应用前景。
📄 摘要(原文)
Video Virtual Try-On (VVT) aims to synthesize garments that appear natural across consecutive video frames, capturing both their dynamics and interactions with human motion. Despite recent progress, existing VVT methods still suffer from inadequate garment fidelity and limited spatiotemporal consistency. The reasons are: (1) under-exploitation of garment information, with limited garment cues being injected, resulting in weaker fine-detail fidelity; and (2) a lack of spatiotemporal modeling, which hampers cross-frame identity consistency and causes temporal jitter and appearance drift. In this paper, we present MagicTryOn, a diffusion-transformer based framework for garment-preserving video virtual try-on. To preserve fine-grained garment details, we propose a fine-grained garment-preservation strategy that disentangles garment cues and injects these decomposed priors into the denoising process. To improve temporal garment consistency and suppress jitter, we introduce a garment-aware spatiotemporal rotary positional embedding (RoPE) that extends RoPE within full self-attention, using spatiotemporal relative positions to modulate garment tokens. We further impose a mask-aware loss during training to enhance fidelity within garment regions. Moreover, we adopt distribution-matching distillation to compress the sampling trajectory to four steps, enabling real-time inference without degrading garment fidelity. Extensive quantitative and qualitative experiments demonstrate that MagicTryOn outperforms existing methods, delivering superior garment-detail fidelity and temporal stability in unconstrained settings.