AvatarVTON: 4D Virtual Try-On for Animatable Avatars

📄 arXiv: 2510.04822v1 📥 PDF

作者: Zicheng Jiang, Jixin Gao, Shengfeng He, Xinzhe Li, Yulong Zheng, Zhaotong Yang, Junyu Dong, Yong Du

分类: cs.CV

发布日期: 2025-10-06


💡 一句话要点

AvatarVTON:提出首个用于可动画Avatar的4D虚拟试穿框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 虚拟试穿 4D重建 服装形变 光流校正 数字人

📋 核心要点

  1. 现有虚拟试穿方法通常依赖多视角服装数据或物理引擎,难以处理动态服装交互和单视角图像。
  2. AvatarVTON通过互易流校正器稳定Avatar拟合,并使用非线性形变器实现服装的自适应形变。
  3. 实验表明,AvatarVTON在保真度、多样性和动态真实感方面表现出色,为AR/VR等应用提供支持。

📝 摘要(中文)

本文提出AvatarVTON,是首个4D虚拟试穿框架,它仅需单张店内服装图像即可生成逼真的试穿效果,支持自由姿势控制、新视角渲染和多样化的服装选择。与现有方法不同,AvatarVTON在单视角监督下支持动态服装交互,无需多视角服装捕获或物理先验。该框架包含两个关键模块:(1)互易流校正器,一种无需先验的光流校正策略,可稳定Avatar拟合并确保时间一致性;(2)非线性形变器,将高斯图分解为视角-姿势不变和视角-姿势特定分量,从而实现自适应的非线性服装形变。为了建立4D虚拟试穿的基准,我们使用统一的模块扩展了现有的基线,以进行公平的定性和定量比较。大量实验表明,AvatarVTON实现了高保真度、多样性和动态服装真实感,非常适合AR/VR、游戏和数字人应用。

🔬 方法详解

问题定义:现有虚拟试穿方法在处理单视角服装图像时,难以实现逼真的动态服装交互和姿势控制。它们通常依赖于多视角服装捕获或复杂的物理引擎,这限制了其在实际应用中的可行性。因此,如何仅使用单张服装图像,实现具有时间一致性的、可自由控制姿势的4D虚拟试穿是一个关键问题。

核心思路:AvatarVTON的核心思路是将服装形变分解为视角-姿势不变和视角-姿势特定的分量,从而实现自适应的非线性形变。通过互易流校正器来稳定Avatar的拟合,保证时间一致性,避免抖动。这种分解和校正的策略使得模型能够更好地理解服装的内在结构和动态行为,从而生成更逼真的试穿效果。

技术框架:AvatarVTON框架主要包含两个核心模块:互易流校正器(Reciprocal Flow Rectifier)和非线性形变器(Non-Linear Deformer)。首先,互易流校正器利用光流信息来稳定Avatar的拟合,确保时间上的连贯性。然后,非线性形变器将服装的高斯图分解为视角-姿势不变和视角-姿势特定的分量,并根据Avatar的姿势和视角进行自适应的形变。最后,将形变后的服装纹理映射到Avatar上,生成最终的试穿效果。

关键创新:AvatarVTON的关键创新在于其互易流校正器和非线性形变器的设计。互易流校正器是一种无需先验知识的光流校正策略,能够有效地稳定Avatar的拟合,避免时间上的抖动。非线性形变器通过分解高斯图,实现了服装的自适应形变,从而更好地模拟了服装的动态行为。与现有方法相比,AvatarVTON无需多视角服装捕获或物理先验,更加灵活和高效。

关键设计:互易流校正器利用光流的前向和后向一致性来检测和校正不准确的光流估计。非线性形变器使用高斯混合模型来表示服装的形状,并通过神经网络学习视角-姿势不变和视角-姿势特定的形变参数。损失函数包括光流损失、时间一致性损失和渲染损失,以保证生成的试穿效果的逼真度和时间上的连贯性。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

实验结果表明,AvatarVTON在4D虚拟试穿任务上取得了显著的性能提升。与现有基线方法相比,AvatarVTON在保真度、多样性和动态真实感方面均有明显优势。定量指标显示,AvatarVTON在时间一致性方面优于其他方法,生成的试穿效果更加稳定和自然。定性结果也表明,AvatarVTON能够生成更加逼真的服装形变和动态效果。

🎯 应用场景

AvatarVTON具有广泛的应用前景,包括AR/VR虚拟试衣、游戏角色定制、数字人形象设计等。该技术可以帮助用户在线体验不同服装的试穿效果,提高购物体验和决策效率。此外,AvatarVTON还可以用于创建个性化的数字人形象,为虚拟社交和娱乐提供更多可能性。未来,该技术有望进一步发展,实现更加逼真和自然的虚拟试穿效果。

📄 摘要(原文)

We propose AvatarVTON, the first 4D virtual try-on framework that generates realistic try-on results from a single in-shop garment image, enabling free pose control, novel-view rendering, and diverse garment choices. Unlike existing methods, AvatarVTON supports dynamic garment interactions under single-view supervision, without relying on multi-view garment captures or physics priors. The framework consists of two key modules: (1) a Reciprocal Flow Rectifier, a prior-free optical-flow correction strategy that stabilizes avatar fitting and ensures temporal coherence; and (2) a Non-Linear Deformer, which decomposes Gaussian maps into view-pose-invariant and view-pose-specific components, enabling adaptive, non-linear garment deformations. To establish a benchmark for 4D virtual try-on, we extend existing baselines with unified modules for fair qualitative and quantitative comparisons. Extensive experiments show that AvatarVTON achieves high fidelity, diversity, and dynamic garment realism, making it well-suited for AR/VR, gaming, and digital-human applications.