Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals
作者: Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe
分类: cs.CV
发布日期: 2025-05-27
💡 一句话要点
提出TEMU-VTOFF,从服装图像中生成多品类商品图,提升虚拟试衣逆向任务性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 虚拟试穿逆向 多模态融合 服装图像生成 扩散模型 Transformer
📋 核心要点
- 现有VTOFF方法难以从复杂姿势和遮挡中提取服装特征,且仅限于单类别服装,泛化性差。
- TEMU-VTOFF采用双DiT主干网络和多模态注意力机制,融合图像、文本和掩码信息,实现多品类服装特征的鲁棒提取。
- 实验表明,TEMU-VTOFF在VITON-HD和Dress Code数据集上显著提升了VTOFF任务的视觉质量和服装保真度。
📝 摘要(中文)
本文提出了一种新颖的虚拟试穿逆向任务(VTOFF),旨在从穿着服装的个体真实照片中生成标准化的商品图像。与虚拟试穿(VTON)不同,VTOFF受益于一致且明确的输出格式(通常是平铺的服装展示),使其成为数据生成和数据集增强的有前途的工具。然而,现有的VTOFF方法面临两个主要限制:(i)难以从遮挡和复杂的姿势中分离服装特征,经常导致视觉伪影;(ii)适用范围仅限于单类别服装(例如,仅上身服装),限制了泛化能力。为了应对这些挑战,我们提出了Text-Enhanced MUlti-category Virtual Try-Off(TEMU-VTOFF),这是一种新颖的架构,具有基于双DiT的主干网络,以及改进的多模态注意力机制,用于鲁棒的服装特征提取。我们的架构旨在接收来自图像、文本和掩码等多种模态的服装信息,以在多类别设置中工作。最后,我们提出了一个额外的对齐模块,以进一步细化生成的视觉细节。在VITON-HD和Dress Code数据集上的实验表明,TEMU-VTOFF在VTOFF任务上建立了新的最先进水平,显著提高了视觉质量和对目标服装的保真度。
🔬 方法详解
问题定义:论文旨在解决虚拟试穿逆向任务(VTOFF),即从穿着服装的人体图像中生成标准化的商品服装图像。现有方法的主要痛点在于难以从复杂的姿势、遮挡以及光照变化中准确提取服装特征,并且大多只能处理单一类别的服装,泛化能力不足。
核心思路:论文的核心思路是利用多模态信息(图像、文本、掩码)来增强服装特征的提取能力,并采用双分支的DiT(Diffusion Transformer)架构来分别处理全局和局部信息,从而更准确地生成商品服装图像。通过引入文本信息,可以更好地描述服装的细节和属性,从而弥补图像中可能存在的遮挡或模糊。
技术框架:TEMU-VTOFF的整体架构包含以下几个主要模块:1) 多模态特征提取模块:用于提取图像、文本和掩码的特征表示。2) 双DiT主干网络:包含两个DiT分支,分别处理全局和局部特征,并通过交叉注意力机制进行信息融合。3) 多模态注意力机制:用于融合不同模态的特征,并突出与服装相关的特征。4) 对齐模块:用于进一步细化生成的图像,并确保其与目标服装的形状和细节对齐。
关键创新:该论文的关键创新在于:1) 提出了基于双DiT主干网络的多品类VTOFF架构,能够处理多种服装类别。2) 引入了多模态注意力机制,有效融合了图像、文本和掩码信息,提升了服装特征的提取能力。3) 提出了对齐模块,进一步提升了生成图像的视觉质量和服装保真度。
关键设计:在双DiT主干网络中,一个分支负责处理全局信息(例如服装的整体形状和风格),另一个分支负责处理局部信息(例如服装的纹理和细节)。多模态注意力机制采用Transformer结构,通过自注意力机制学习不同模态特征之间的关系。对齐模块采用可变形卷积网络,能够自适应地调整感受野,从而更好地对齐生成的图像和目标服装。
🖼️ 关键图片
📊 实验亮点
TEMU-VTOFF在VITON-HD和Dress Code数据集上取得了显著的性能提升,相较于现有VTOFF方法,在视觉质量和服装保真度方面均有明显改善。具体指标数据未知,但论文强调该方法建立了VTOFF任务的新state-of-the-art。
🎯 应用场景
该研究成果可应用于电商平台,自动生成商品展示图,降低人工成本,提高效率。同时,也能用于虚拟试衣场景,帮助消费者更好地了解服装的款式和效果。未来,该技术有望扩展到更多商品品类,并结合AR/VR技术,提供更沉浸式的购物体验。
📄 摘要(原文)
While virtual try-on (VTON) systems aim to render a garment onto a target person image, this paper tackles the novel task of virtual try-off (VTOFF), which addresses the inverse problem: generating standardized product images of garments from real-world photos of clothed individuals. Unlike VTON, which must resolve diverse pose and style variations, VTOFF benefits from a consistent and well-defined output format -- typically a flat, lay-down-style representation of the garment -- making it a promising tool for data generation and dataset enhancement. However, existing VTOFF approaches face two major limitations: (i) difficulty in disentangling garment features from occlusions and complex poses, often leading to visual artifacts, and (ii) restricted applicability to single-category garments (e.g., upper-body clothes only), limiting generalization. To address these challenges, we present Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a dual DiT-based backbone with a modified multimodal attention mechanism for robust garment feature extraction. Our architecture is designed to receive garment information from multiple modalities like images, text, and masks to work in a multi-category setting. Finally, we propose an additional alignment module to further refine the generated visual details. Experiments on VITON-HD and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the VTOFF task, significantly improving both visual quality and fidelity to the target garments.