Learning High-Fidelity Cloth Animation via Skinning-Free Image Transfer

📄 arXiv: 2512.05593v1 📥 PDF

作者: Rong Wang, Wei Mao, Changsheng Lu, Hongdong Li

分类: cs.CV

发布日期: 2025-12-05

备注: Accepted to 3DV 2026


💡 一句话要点

提出一种无蒙皮图像迁移方法,用于生成高保真服装动画。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 服装动画 图像迁移 无蒙皮方法 三维重建 虚拟试穿

📋 核心要点

  1. 现有服装动画方法依赖蒙皮技术,但缺乏显式监督导致形状错位,影响高频细节恢复。
  2. 提出无蒙皮方法,独立估计低频顶点位置和高频顶点法线,解耦频率模态并直接监督。
  3. 将顶点属性编码为纹理图像,利用图像迁移和多模态融合,提升动画质量和细节恢复。

📝 摘要(中文)

本文提出了一种从给定人体姿势生成3D服装变形的新方法,该方法对于虚拟试穿和扩展现实等应用至关重要。现有方法主要依赖线性混合蒙皮来获得低频姿态服装形状,并仅回归高频皱纹,从而简化服装动力学。然而,由于缺乏显式的蒙皮监督,这种基于蒙皮的方法在摆放服装姿势时经常产生未对齐的形状,从而破坏高频信号并无法恢复高保真皱纹。为了解决这个问题,我们提出了一种无蒙皮方法,通过独立估计姿态的(i)顶点位置以获得低频姿态服装形状,以及(ii)顶点法线以获得高频局部皱纹细节。通过这种方式,每个频率模态可以有效地解耦,并直接由变形服装的几何形状监督。为了进一步提高动画的视觉质量,我们建议将顶点属性编码为渲染的纹理图像,以便可以通过2D图像传输等效地实现3D服装变形。这使我们能够利用强大的预训练图像模型来恢复皱纹中的精细视觉细节,同时保持对各种拓扑服装的卓越可扩展性,而无需依赖手动UV划分。最后,我们提出了一种多模态融合来结合来自频率模态的约束,并从传输的图像中稳健地恢复变形的3D服装。大量实验表明,我们的方法显着提高了各种服装类型的动画质量,并恢复了比最先进方法更精细的皱纹。

🔬 方法详解

问题定义:现有基于线性混合蒙皮的服装动画方法,由于缺乏显式的蒙皮监督,在服装姿态变化时容易产生形状错位,进而影响高频皱纹细节的恢复,导致动画质量下降。现有方法难以兼顾服装的拓扑多样性和细节保真度。

核心思路:论文的核心思路是将服装变形分解为低频的整体形状变化(顶点位置)和高频的细节皱纹(顶点法线),并分别进行估计。通过独立处理不同频率的信号,并直接利用变形后的服装几何信息进行监督,避免了蒙皮带来的误差累积。将3D服装变形问题转化为2D图像迁移问题,从而可以利用预训练的图像模型来增强细节恢复能力。

技术框架:该方法包含以下主要模块:1) 顶点属性编码:将3D服装的顶点位置和顶点法线分别渲染成纹理图像。2) 图像迁移:利用预训练的图像模型,将输入的人体姿势图像转换为对应的服装纹理图像。3) 多模态融合:将低频的顶点位置和高频的顶点法线信息进行融合,得到最终的3D服装变形结果。

关键创新:该方法最重要的技术创新点在于提出了无蒙皮的服装变形方法,避免了传统蒙皮方法带来的误差累积。将3D服装变形问题转化为2D图像迁移问题,从而可以利用预训练的图像模型来增强细节恢复能力。提出了多模态融合方法,有效地结合了低频和高频信息,提高了动画的鲁棒性和质量。

关键设计:顶点属性编码使用UV展开将3D网格映射到2D纹理空间。图像迁移网络可以使用各种图像生成模型,例如GAN或扩散模型。多模态融合可以使用加权平均或更复杂的神经网络结构。损失函数包括顶点位置损失、顶点法线损失和图像损失,用于约束生成的服装形状和细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在各种服装类型上都取得了显著的动画质量提升,尤其是在皱纹等细节的恢复方面优于现有方法。与现有方法相比,该方法能够生成更加逼真和自然的服装动画,并且具有更好的鲁棒性和可扩展性。具体性能数据未知,但论文强调了在视觉质量上的显著提升。

🎯 应用场景

该研究成果可广泛应用于虚拟试穿、游戏角色定制、电影特效制作、虚拟现实和增强现实等领域。通过该方法,可以生成更加逼真和自然的服装动画,提升用户体验,降低内容制作成本。未来,该技术有望应用于个性化服装设计和智能服装制造等领域。

📄 摘要(原文)

We present a novel method for generating 3D garment deformations from given body poses, which is key to a wide range of applications, including virtual try-on and extended reality. To simplify the cloth dynamics, existing methods mostly rely on linear blend skinning to obtain low-frequency posed garment shape and only regress high-frequency wrinkles. However, due to the lack of explicit skinning supervision, such skinning-based approach often produces misaligned shapes when posing the garment, consequently corrupts the high-frequency signals and fails to recover high-fidelity wrinkles. To tackle this issue, we propose a skinning-free approach by independently estimating posed (i) vertex position for low-frequency posed garment shape, and (ii) vertex normal for high-frequency local wrinkle details. In this way, each frequency modality can be effectively decoupled and directly supervised by the geometry of the deformed garment. To further improve the visual quality of animation, we propose to encode both vertex attributes as rendered texture images, so that 3D garment deformation can be equivalently achieved via 2D image transfer. This enables us to leverage powerful pretrained image models to recover fine-grained visual details in wrinkles, while maintaining superior scalability for garments of diverse topologies without relying on manual UV partition. Finally, we propose a multimodal fusion to incorporate constraints from both frequency modalities and robustly recover deformed 3D garments from transferred images. Extensive experiments show that our method significantly improves animation quality on various garment types and recovers finer wrinkles than state-of-the-art methods.