Zero-Shot Reconstruction of Animatable 3D Avatars with Cloth Dynamics from a Single Image
作者: Joohyun Kwon, Geonhee Sim, Gyeongsik Moon
分类: cs.CV
发布日期: 2026-03-16
备注: Accepted to CVPR 2026
💡 一句话要点
DynaAvatar:单图零样本重建具有布料动态效果的可动3D人体化身
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D人体化身 布料动态 单图重建 零样本学习 Transformer 知识迁移 光流引导
📋 核心要点
- 现有单图3D人体化身方法主要依赖刚性关节变换,难以建模真实的布料动态效果。
- DynaAvatar通过Transformer预测动态3D高斯形变,并利用静态到动态的知识迁移策略,克服动态数据稀缺问题。
- DynaAvatar引入光流引导的DynaFlow损失,并重新标注数据集,实验结果表明其性能优于现有方法。
📝 摘要(中文)
本文提出DynaAvatar,一个零样本框架,旨在从单张图像重建具有运动依赖布料动态效果的可动3D人体化身。DynaAvatar在大型多人运动数据集上训练,采用基于Transformer的前馈架构,直接预测动态3D高斯形变,无需针对特定对象进行优化。为克服动态捕捉数据稀缺问题,引入静态到动态的知识迁移策略:一个在大型静态捕捉数据上预训练的Transformer提供强大的几何和外观先验,并通过轻量级的LoRA微调,高效地适应运动依赖的形变。此外,提出了DynaFlow损失,一种光流引导的目标函数,为渲染空间中的布料动态提供可靠的运动方向几何线索。最后,重新标注了现有动态捕捉数据集中缺失或噪声SMPL-X拟合,因为大多数公共动态捕捉数据集包含不完整或不可靠的拟合,不适合训练高质量的3D化身重建模型。实验表明,DynaAvatar生成视觉效果丰富且具有泛化性的动画,优于现有方法。
🔬 方法详解
问题定义:现有单图3D人体化身重建方法难以捕捉服装的动态效果,主要依赖于刚性关节变换,无法模拟逼真的布料运动。公开的动态捕捉数据集往往包含不完整或质量差的SMPL-X拟合,限制了高质量模型的训练。
核心思路:DynaAvatar的核心在于利用Transformer架构直接预测运动依赖的3D高斯形变,从而实现对布料动态的建模。通过静态到动态的知识迁移,利用大规模静态数据提供的先验知识,克服动态数据稀缺的问题。DynaFlow损失则利用光流信息,引导模型学习布料的运动方向。
技术框架:DynaAvatar采用基于Transformer的前馈架构。首先,使用一个在大型静态数据集上预训练的Transformer提取几何和外观特征。然后,通过LoRA微调,将这些特征适应于动态捕捉数据,从而预测运动依赖的3D高斯形变。DynaFlow损失在渲染空间中引导模型学习布料的运动方向。最后,通过渲染得到最终的3D化身。
关键创新:DynaAvatar的关键创新在于:1) 提出了一种零样本的布料动态建模方法,无需针对特定对象进行优化;2) 引入了静态到动态的知识迁移策略,有效利用了大规模静态数据;3) 提出了DynaFlow损失,利用光流信息引导模型学习布料的运动方向。
关键设计:静态到动态知识迁移使用LoRA进行微调,降低了计算成本并防止过拟合。DynaFlow损失的具体形式未知,但其核心思想是利用光流信息约束渲染图像中布料的运动方向,从而提高布料动态的真实感。数据集的重新标注保证了训练数据的质量。
🖼️ 关键图片
📊 实验亮点
DynaAvatar在实验中表现出优于现有方法的性能,能够生成视觉效果丰富且具有泛化性的动画。具体性能数据未知,但摘要强调了其在零样本条件下的布料动态建模能力,以及对现有方法的超越。
🎯 应用场景
DynaAvatar技术可应用于虚拟现实、增强现实、游戏、电影制作等领域,能够创建更逼真、更具表现力的虚拟化身。该技术可以用于定制化虚拟服装的试穿和展示,以及生成具有真实布料动态效果的动画角色。未来,该技术有望进一步扩展到更复杂的服装类型和更精细的动态效果建模。
📄 摘要(原文)
Existing single-image 3D human avatar methods primarily rely on rigid joint transformations, limiting their ability to model realistic cloth dynamics. We present DynaAvatar, a zero-shot framework that reconstructs animatable 3D human avatars with motion-dependent cloth dynamics from a single image. Trained on large-scale multi-person motion datasets, DynaAvatar employs a Transformer-based feed-forward architecture that directly predicts dynamic 3D Gaussian deformations without subject-specific optimization. To overcome the scarcity of dynamic captures, we introduce a static-to-dynamic knowledge transfer strategy: a Transformer pretrained on large-scale static captures provides strong geometric and appearance priors, which are efficiently adapted to motion-dependent deformations through lightweight LoRA fine-tuning on dynamic captures. We further propose the DynaFlow loss, an optical flow-guided objective that provides reliable motion-direction geometric cues for cloth dynamics in rendered space. Finally, we reannotate the missing or noisy SMPL-X fittings in existing dynamic capture datasets, as most public dynamic capture datasets contain incomplete or unreliable fittings that are unsuitable for training high-quality 3D avatar reconstruction models. Experiments demonstrate that DynaAvatar produces visually rich and generalizable animations, outperforming prior methods.