STAR: Skeleton-aware Text-based 4D Avatar Generation with In-Network Motion Retargeting
作者: Zenghao Chai, Chen Tang, Yongkang Wong, Mohan Kankanhalli
分类: cs.CV, cs.GR, cs.MM
发布日期: 2024-06-07
备注: Tech report
💡 一句话要点
STAR:提出骨骼感知的文本驱动4D Avatar生成方法,实现网络内运动重定向。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 4D Avatar生成 文本驱动生成 运动重定向 骨骼感知 扩散模型 T2I T2V
📋 核心要点
- 现有文本驱动的4D Avatar生成方法在姿态无关优化时存在域差距,且难以保持视角一致性,导致生成质量下降。
- STAR方法通过考虑模板网格和目标Avatar的几何和骨骼差异,并利用预训练的运动重定向技术来校正不匹配的源动作。
- 实验结果表明,STAR能够合成高质量的4D Avatar,并具有与文本描述对齐的生动动画,各项指标均有提升。
📝 摘要(中文)
本文提出了一种名为STAR的骨骼感知文本驱动4D Avatar生成方法,该方法通过网络内运动重定向来解决现有方法的不足。现有方法通常使用文本到图像(T2I)扩散模型在规范空间中合成3D Avatar,然后应用目标动作进行动画处理,但存在姿态无关优化时的域差距和仅使用T2I先验难以保持视角一致性,以及直接应用源动作到目标3D Avatar时产生平移伪影和错位等问题。STAR考虑了模板网格和目标Avatar之间的几何和骨骼差异,并借助预训练的运动重定向技术来校正不匹配的源动作。利用信息丰富的重定向和遮挡感知的骨骼,STAR采用了骨骼条件T2I和文本到视频(T2V)先验,并提出了混合SDS模块,以连贯地提供多视角和帧一致的监督信号。因此,STAR可以端到端地逐步优化几何、纹理和运动。定量和定性实验表明,STAR可以合成高质量的4D Avatar,并具有与文本描述对齐的生动动画。消融研究进一步展示了STAR中每个组件的贡献。
🔬 方法详解
问题定义:现有文本驱动的4D Avatar生成方法主要存在两个痛点:一是姿态无关优化时,由于规范姿态渲染图像的域差距,仅使用T2I先验难以保持视角一致性;二是后处理动画时,直接将源动作应用于目标3D Avatar会导致平移伪影和错位。
核心思路:STAR的核心思路是利用骨骼信息来指导4D Avatar的生成和动画过程。通过考虑模板网格和目标Avatar之间的几何和骨骼差异,并借助预训练的运动重定向技术,可以有效地校正不匹配的源动作,从而生成更自然、更逼真的动画。同时,利用骨骼信息作为条件,可以更好地利用T2I和T2V先验,提高生成质量。
技术框架:STAR的整体框架包括以下几个主要模块:1) 骨骼感知模块:用于提取和处理模板网格和目标Avatar的骨骼信息。2) 运动重定向模块:利用预训练的运动重定向技术,将源动作重定向到目标Avatar上。3) 混合SDS模块:结合骨骼条件T2I和T2V先验,生成多视角和帧一致的监督信号。4) 优化模块:端到端地优化Avatar的几何、纹理和运动。
关键创新:STAR最重要的技术创新点在于其骨骼感知的运动重定向方法和混合SDS模块。传统的运动重定向方法通常忽略了Avatar之间的几何和骨骼差异,导致动画效果不佳。STAR通过考虑这些差异,并利用预训练的运动重定向技术,可以更准确地将源动作重定向到目标Avatar上。混合SDS模块则结合了T2I和T2V先验,可以生成更连贯、更逼真的动画。
关键设计:STAR的关键设计包括:1) 使用预训练的运动重定向模型,以提高运动重定向的准确性和效率。2) 设计骨骼条件T2I和T2V先验,以更好地利用骨骼信息。3) 采用混合SDS模块,以生成多视角和帧一致的监督信号。4) 使用合适的损失函数,以优化Avatar的几何、纹理和运动。
📊 实验亮点
论文通过定量和定性实验验证了STAR的有效性。实验结果表明,STAR能够生成高质量的4D Avatar,并具有与文本描述对齐的生动动画。消融研究进一步证明了STAR中每个组件的贡献。与现有方法相比,STAR在生成质量和动画效果方面均有显著提升。
🎯 应用场景
STAR技术可广泛应用于虚拟现实、增强现实、游戏、动画制作等领域。用户可以通过文本描述快速生成个性化的4D Avatar,并赋予其各种动作,从而提升用户体验和内容创作效率。该技术还有潜力应用于远程呈现、虚拟助手等场景,实现更逼真、更自然的交互。
📄 摘要(原文)
The creation of 4D avatars (i.e., animated 3D avatars) from text description typically uses text-to-image (T2I) diffusion models to synthesize 3D avatars in the canonical space and subsequently applies animation with target motions. However, such an optimization-by-animation paradigm has several drawbacks. (1) For pose-agnostic optimization, the rendered images in canonical pose for naive Score Distillation Sampling (SDS) exhibit domain gap and cannot preserve view-consistency using only T2I priors, and (2) For post hoc animation, simply applying the source motions to target 3D avatars yields translation artifacts and misalignment. To address these issues, we propose Skeleton-aware Text-based 4D Avatar generation with in-network motion Retargeting (STAR). STAR considers the geometry and skeleton differences between the template mesh and target avatar, and corrects the mismatched source motion by resorting to the pretrained motion retargeting techniques. With the informatively retargeted and occlusion-aware skeleton, we embrace the skeleton-conditioned T2I and text-to-video (T2V) priors, and propose a hybrid SDS module to coherently provide multi-view and frame-consistent supervision signals. Hence, STAR can progressively optimize the geometry, texture, and motion in an end-to-end manner. The quantitative and qualitative experiments demonstrate our proposed STAR can synthesize high-quality 4D avatars with vivid animations that align well with the text description. Additional ablation studies shows the contributions of each component in STAR. The source code and demos are available at: \href{https://star-avatar.github.io}{https://star-avatar.github.io}.