SwiftTailor: Efficient 3D Garment Generation with Geometry Image Representation
作者: Phuc Pham, Uy Dieu Tran, Binh-Son Hua, Phong Nguyen
分类: cs.CV, cs.GR
发布日期: 2026-03-19
备注: CVPR 2026
💡 一句话要点
SwiftTailor:利用几何图像表示高效生成3D服装
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D服装生成 几何图像表示 视觉-语言模型 Transformer 服装建模
📋 核心要点
- 现有3D服装生成方法依赖大型视觉-语言模型,推理速度慢,难以满足实时应用需求。
- SwiftTailor通过几何图像表示,将缝纫图案推理和网格合成统一,实现高效的3D服装生成。
- 实验表明,SwiftTailor在精度和视觉效果上达到SOTA,并显著降低了推理时间。
📝 摘要(中文)
逼真且高效的3D服装生成一直是计算机视觉和数字时尚领域的一项长期挑战。现有方法通常依赖大型视觉-语言模型来生成2D缝纫图案的序列化表示,然后使用GarmentCode等服装建模框架将其转换为可用于仿真的3D网格。虽然这些方法可以产生高质量的结果,但通常存在推理速度慢的问题,范围从30秒到1分钟不等。本文介绍了一种新颖的两阶段框架SwiftTailor,该框架通过紧凑的几何图像表示统一了缝纫图案推理和基于几何的网格合成。SwiftTailor包含两个轻量级模块:PatternMaker,一个高效的视觉-语言模型,可以从各种输入模态预测缝纫图案;以及GarmentSewer,一个高效的密集预测Transformer,可以将这些图案转换为一种新颖的服装几何图像,该图像在统一的UV空间中编码所有服装面板的3D表面。最终的3D网格通过高效的逆映射过程重建,该过程结合了重新划分网格和动态缝合算法来直接组装服装,从而分摊了物理仿真的成本。在Multimodal GarmentCodeData上的大量实验表明,SwiftTailor在实现最先进的精度和视觉保真度的同时,显著降低了推理时间。这项工作为下一代3D服装生成提供了一种可扩展、可解释和高性能的解决方案。
🔬 方法详解
问题定义:现有3D服装生成方法,如基于GarmentCode的方法,依赖于大型视觉-语言模型生成2D缝纫图案的序列化表示,再转换为3D网格。这种方法虽然能产生高质量结果,但推理速度慢,难以满足实时或交互式应用的需求。因此,需要一种更高效的3D服装生成方法。
核心思路:SwiftTailor的核心思路是通过引入一种紧凑的几何图像表示,将缝纫图案的推理和基于几何的网格合成过程统一起来。这种方法避免了传统方法中耗时的序列化表示和物理仿真,从而显著提高了生成效率。通过学习将2D缝纫图案直接映射到3D服装的几何形状,从而加速了3D服装的生成过程。
技术框架:SwiftTailor框架包含两个主要模块:PatternMaker和GarmentSewer。PatternMaker是一个视觉-语言模型,负责从各种输入模态(例如文本描述、图像等)预测缝纫图案。GarmentSewer是一个密集预测Transformer,它将PatternMaker生成的缝纫图案转换为一种新颖的服装几何图像。该几何图像在统一的UV空间中编码了所有服装面板的3D表面信息。最后,通过一个逆映射过程,从几何图像重建出最终的3D网格,该过程包括网格重划分和动态缝合算法。
关键创新:SwiftTailor的关键创新在于引入了Garment Geometry Image这一概念,它是一种紧凑的、可微分的3D服装表示。与传统的序列化表示相比,几何图像能够更有效地编码3D服装的几何信息,并允许使用高效的密集预测Transformer进行处理。此外,通过直接从几何图像重建3D网格,避免了耗时的物理仿真过程。
关键设计:PatternMaker可以使用各种现有的视觉-语言模型,并针对缝纫图案预测任务进行微调。GarmentSewer采用Transformer架构,并使用密集预测损失函数进行训练,以确保生成的几何图像能够准确地编码3D服装的表面信息。逆映射过程使用网格重划分算法来优化网格质量,并使用动态缝合算法来确保服装面板之间的正确连接。
📊 实验亮点
SwiftTailor在Multimodal GarmentCodeData数据集上取得了SOTA的精度和视觉效果,同时显著降低了推理时间。与现有方法相比,SwiftTailor的推理速度提高了数倍,使得实时3D服装生成成为可能。具体性能数据(例如推理时间、精度指标等)需要在论文中查找。
🎯 应用场景
SwiftTailor具有广泛的应用前景,包括虚拟试衣、游戏角色定制、电影服装设计、以及电商平台的服装展示等。该技术可以加速服装设计流程,降低生产成本,并为用户提供更个性化的服装体验。未来,SwiftTailor有望应用于更复杂的服装设计和定制场景,例如个性化定制服装、虚拟时装秀等。
📄 摘要(原文)
Realistic and efficient 3D garment generation remains a longstanding challenge in computer vision and digital fashion. Existing methods typically rely on large vision- language models to produce serialized representations of 2D sewing patterns, which are then transformed into simulation-ready 3D meshes using garment modeling framework such as GarmentCode. Although these approaches yield high-quality results, they often suffer from slow inference times, ranging from 30 seconds to a minute. In this work, we introduce SwiftTailor, a novel two-stage framework that unifies sewing-pattern reasoning and geometry-based mesh synthesis through a compact geometry image representation. SwiftTailor comprises two lightweight modules: PatternMaker, an efficient vision-language model that predicts sewing patterns from diverse input modalities, and GarmentSewer, an efficient dense prediction transformer that converts these patterns into a novel Garment Geometry Image, encoding the 3D surface of all garment panels in a unified UV space. The final 3D mesh is reconstructed through an efficient inverse mapping process that incorporates remeshing and dynamic stitching algorithms to directly assemble the garment, thereby amortizing the cost of physical simulation. Extensive experiments on the Multimodal GarmentCodeData demonstrate that SwiftTailor achieves state-of-the-art accuracy and visual fidelity while significantly reducing inference time. This work offers a scalable, interpretable, and high-performance solution for next-generation 3D garment generation.