From Rigging to Waving: 3D-Guided Diffusion for Natural Animation of Hand-Drawn Characters
作者: Jie Zhou, Linzi Qu, Miu-Ling Lam, Hongbo Fu
分类: cs.GR
发布日期: 2025-09-08
💡 一句话要点
提出基于3D引导扩散的手绘角色自然动画生成方法
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 手绘动画 视频扩散模型 骨骼动画 领域自适应 次要动态 图像修复 头发建模
📋 核心要点
- 现有骨骼动画难以处理非刚性元素,而视频扩散模型易产生几何失真,手绘角色动画的几何一致性和生动运动难以兼顾。
- 提出一种混合动画系统,结合骨骼动画的几何引导和视频扩散的动态生成能力,实现自然的手绘角色动画。
- 通过次要动态注入和头发分层建模等技术,显著提升了动画的真实感和几何一致性,实验结果优于现有方法。
📝 摘要(中文)
手绘角色动画是计算机图形学中一个充满活力的领域,但在实现几何一致性和表达生动运动方面面临挑战。传统的骨骼动画方法虽然保持了几何一致性,但在处理复杂的非刚性元素(如飘逸的头发和裙子)时表现不佳,导致不自然的变形。另一方面,视频扩散模型可以合成逼真的动态效果,但由于领域差异,经常在风格化绘图中产生几何失真。本文提出了一种结合骨骼动画和视频扩散的混合动画系统。首先,通过骨骼动画重定向角色生成粗略图像,作为几何引导。然后,使用视频扩散先验增强这些图像的纹理和次要动态效果,将其构建为一个图像修复任务。一个领域自适应的扩散模型细化用户掩码的需要改进的区域,特别是对于次要动态效果。为了进一步增强运动的真实感,我们在去噪过程中引入了一种次要动态注入(SDI)策略,整合了来自预训练的、富含人体运动先验的扩散模型的特征。此外,为了解决低多边形单网格角色建模导致的不自然变形问题,我们提出了一种头发分层建模(HLM)技术,该技术使用分割图将头发与身体分离,从而实现长发角色更自然的动画效果。大量的实验表明,我们的系统在定量和定性评估中都优于最先进的方法。
🔬 方法详解
问题定义:手绘角色动画生成,目标是在保持几何一致性的前提下,生成自然、生动的动画效果。现有方法,如骨骼动画,在处理非刚性元素(如头发、裙子)时容易产生不自然的形变。而直接使用视频扩散模型,又容易因为手绘风格与真实视频的领域差异,导致几何失真。
核心思路:结合骨骼动画和视频扩散模型的优势。首先利用骨骼动画提供粗略的几何引导,然后利用视频扩散模型生成更逼真的纹理和动态效果。将动画生成过程视为一个图像修复任务,通过领域自适应的扩散模型来细化图像,并引入次要动态注入策略来增强运动的真实感。
技术框架:整体框架包含以下几个主要阶段:1) 骨骼动画:使用骨骼动画系统对角色进行动画控制,生成粗略的动画序列。2) 图像生成:将骨骼动画的结果渲染成图像,作为后续扩散模型的几何引导。3) 扩散模型增强:使用领域自适应的视频扩散模型,对图像进行修复和增强,生成更逼真的纹理和动态效果。4) 次要动态注入:在扩散模型的去噪过程中,注入来自预训练的、富含人体运动先验的扩散模型的特征,以增强运动的真实感。5) 头发分层建模:对于长发角色,使用分割图将头发与身体分离,分别进行动画处理,避免头发与身体的穿插和形变。
关键创新:1) 混合动画系统:结合骨骼动画和视频扩散模型,充分利用两者的优势。2) 次要动态注入(SDI):在扩散模型的去噪过程中,注入来自预训练模型的特征,增强运动的真实感。3) 头发分层建模(HLM):针对长发角色,提出一种新的建模方法,避免头发与身体的穿插和形变。
关键设计:1) 领域自适应扩散模型:使用手绘风格的数据对扩散模型进行微调,使其更适应手绘角色的动画生成。2) 次要动态注入策略:在扩散模型的每个去噪步骤中,将来自预训练模型的特征与当前图像的特征进行融合,融合比例通过学习得到。3) 头发分层建模:使用U-Net进行头发分割,然后将头发和身体分别进行动画处理,最后将两者合成。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在定量和定性评估中均优于现有方法。在用户研究中,该方法生成的动画在真实感、几何一致性和艺术风格方面都获得了更高的评分。与基线方法相比,该方法能够生成更自然、更逼真的手绘角色动画,尤其是在处理头发等非刚性元素时表现更佳。
🎯 应用场景
该研究成果可应用于手绘动画制作、游戏开发、虚拟角色生成等领域。通过结合骨骼动画和视频扩散模型,可以更高效、更自然地生成手绘风格的动画,降低动画制作的成本和门槛。该技术还有潜力应用于其他风格化图像的动画生成,例如卡通、漫画等。
📄 摘要(原文)
Hand-drawn character animation is a vibrant field in computer graphics, presenting challenges in achieving geometric consistency while conveying expressive motion. Traditional skeletal animation methods maintain geometric consistency but struggle with complex non-rigid elements like flowing hair and skirts, leading to unnatural deformation. Conversely, video diffusion models synthesize realistic dynamics but often create geometric distortions in stylized drawings due to domain gaps. This work proposes a hybrid animation system that combines skeletal animation and video diffusion. Initially, coarse images are generated from characters retargeted with skeletal animations for geometric guidance. These images are then enhanced in texture and secondary dynamics using video diffusion priors, framing this enhancement as an inpainting task. A domain-adapted diffusion model refines user-masked regions needing improvement, especially for secondary dynamics. To enhance motion realism further, we introduce a Secondary Dynamics Injection (SDI) strategy in the denoising process, incorporating features from a pre-trained diffusion model enriched with human motion priors. Additionally, to tackle unnatural deformations from low-poly single-mesh character modeling, we present a Hair Layering Modeling (HLM) technique that uses segmentation maps to separate hair from the body, allowing for more natural animation of long-haired characters. Extensive experiments show that our system outperforms state-of-the-art methods in both quantitative and qualitative evaluations.