FEAT: Fashion Editing and Try-On from Any Design
作者: Soye Kwon, Keonyoung Lee, Dahuin Jung, Jaekoo Lee
分类: cs.CV, cs.AI
发布日期: 2026-05-04
备注: 10 pages, 9 figures, 2 tables
💡 一句话要点
FEAT:利用任意设计进行服装编辑和试穿,扩展设计来源并支持完整搭配。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 服装编辑 虚拟试穿 设计注入 风格解耦 噪声融合
📋 核心要点
- 现有服装编辑和试穿方法的设计来源受限,无法利用艺术作品等创意资源,且不支持包含配饰的完整搭配。
- FEAT通过解耦双重注入(DDI)选择性地注入服装和非服装设计线索,并利用正交引导噪声融合(OGNF)实现虚拟试穿。
- 实验结果表明,FEAT在设计灵活性、提示一致性和视觉真实感方面均优于现有技术水平。
📝 摘要(中文)
本文提出了一种名为FEAT(Fashion Editing And Try-On from Any Design)的方法,该方法能够利用多样化的设计来源进行服装和配饰的编辑和试穿。现有方法通常仅限于服装相关的图像设计,并且无法支持包括配饰在内的完整服装搭配。为了解决这些问题,FEAT引入了解耦双重注入(Disentangled Dual Injection, DDI),它接收服装和非服装设计来源,并通过内容和风格解耦选择性地注入设计线索。此外,本文还提出了一种无需训练的正交引导噪声融合(Orthogonal-Guided Noise Fusion, OGNF)机制,该机制通过正交投影去除残留服装,并应用特定区域的噪声策略,从而实现服装和配饰的虚拟试穿。大量实验表明,FEAT在设计灵活性、提示一致性和视觉真实感方面均达到了最先进的性能。
🔬 方法详解
问题定义:现有服装编辑和虚拟试穿方法主要存在两个痛点:一是设计来源受限,只能使用服装相关的图像,无法利用更广泛的创意设计资源,如艺术作品、抽象图像等;二是无法支持完整的服装搭配,包括配饰等元素,导致应用场景受限。
核心思路:FEAT的核心思路是将服装编辑和虚拟试穿过程解耦为设计注入和区域融合两个阶段。通过解耦内容和风格,可以灵活地将任意设计来源的风格融入到目标服装中。同时,利用正交引导的噪声融合,可以有效地去除原始服装的残留,并针对不同区域应用不同的噪声策略,从而实现服装和配饰的无缝融合。
技术框架:FEAT方法主要包含两个核心模块:解耦双重注入(DDI)和正交引导噪声融合(OGNF)。DDI模块负责将服装和非服装设计来源的信息注入到目标服装中,通过内容和风格的解耦,实现灵活的设计控制。OGNF模块则负责去除原始服装的残留,并根据不同区域的特点,应用不同的噪声策略,从而实现虚拟试穿。整体流程为:首先使用DDI模块注入设计信息,然后使用OGNF模块进行区域融合,最终生成编辑后的服装图像。
关键创新:FEAT的关键创新在于DDI和OGNF两个模块的设计。DDI模块通过解耦内容和风格,实现了对设计来源的灵活控制,使得可以利用任意图像作为设计来源。OGNF模块则通过正交引导的噪声融合,有效地解决了原始服装残留的问题,并针对不同区域应用不同的噪声策略,提高了虚拟试穿的真实感。与现有方法相比,FEAT在设计灵活性和视觉真实感方面都有显著提升。
关键设计:DDI模块的关键设计在于内容和风格的解耦方式,具体实现细节未知。OGNF模块的关键设计在于正交投影的计算方式和噪声策略的选择,具体实现细节未知。损失函数方面,论文可能使用了对抗损失、内容损失和风格损失等,以保证生成图像的质量和一致性。网络结构方面,论文可能使用了U-Net或GAN等结构,以实现图像的生成和编辑。
🖼️ 关键图片
📊 实验亮点
FEAT在设计灵活性、提示一致性和视觉真实感方面均达到了最先进的性能。具体性能数据未知,但论文强调FEAT能够利用任意设计来源进行服装编辑和试穿,并支持包括配饰在内的完整服装搭配,这表明FEAT在功能性和实用性方面都具有显著优势。
🎯 应用场景
FEAT具有广泛的应用前景,可以应用于在线服装定制、虚拟试衣间、时尚设计辅助等领域。设计师可以利用FEAT将艺术作品、自然风光等元素融入服装设计中,创造出更具创意和个性的作品。消费者可以通过虚拟试衣间,体验不同风格的服装搭配,提高购物体验。该研究有望推动时尚产业的数字化和智能化发展。
📄 摘要(原文)
Fashion design aims to express a designer's creative intent and to depict how garments interact with the human body. Recent methods condition on multimodal inputs to support garment editing and virtual try-on. However, existing methods still (i) confine design to garment-related images, excluding creative design sources such as artwork, abstract imagery, and natural photographs, and (ii) cannot support complete outfits, including accessories. We present FEAT (Fashion Editing And Try-On from Any Design), a method that enables editing and try-on across garments and accessories using diverse design sources. To achieve this, we introduce Disentangled Dual Injection (DDI). It takes both apparel and non-apparel design sources and selectively injects design cues via content and style disentanglement. Furthermore, we propose Orthogonal-Guided Noise Fusion (OGNF), a training-free mechanism that removes residual garments via orthogonal projection and applies region-specific noise strategies to enable virtual try-on for both garments and accessories. Extensive experiments demonstrate that FEAT achieves state-of-the-art performance in design flexibility, prompt consistency, and visual realism.