Latent Dynamics for Full Body Avatar Animation

📄 arXiv: 2605.21478v1 📥 PDF

作者: Shichong Peng, Chengxiang Yin, Fei Jiang, Zhongshi Jiang, Lingchen Yang, Qingyang Tan, Amin Jourabloo, Jason Saragih, Ke Li, Christian Häne

分类: cs.CV, cs.GR

发布日期: 2026-05-20

备注: Supplementary video: https://youtu.be/xjnr3YM0yIE


💡 一句话要点

提出基于Transformer和动态残差潜变量的全身Avatar动画方法,提升服装细节和时间连贯性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 全身Avatar动画 神经渲染 动态建模 Transformer 潜变量动态模型

📋 核心要点

  1. 现有姿态驱动的全身Avatar动画在处理服装等动态元素时,难以捕捉其随时间变化的复杂形变,导致动画效果不佳。
  2. 本文提出一种基于Transformer和动态残差潜变量的方法,通过学习潜变量的动态演化来模拟服装的运动,从而提升动画的真实感。
  3. 实验结果表明,该方法在多种日常运动场景下,能够生成更高质量、时间连贯的全身Avatar动画,优于现有数据驱动方法。

📝 摘要(中文)

本文提出了一种基于神经渲染的姿态驱动全身Avatar动画方法,旨在解决服装等动态元素因历史、惯性和接触而产生的形变问题,这些形变无法仅通过姿态解释。现有方法或依赖于服装模板或需要耗时的物理模拟,而数据驱动的服装Avatar方法则忽略了潜变量的动态演化。本文通过Transformer解码器和动态残差潜变量增强了姿态条件3D高斯Avatar,该潜变量捕捉了超出驱动信号的时间外观和几何变化。在推理时,学习到的潜变量动态模型从短姿态历史和先前的潜变量状态演化残差潜变量,将每次更新分解为驱动力、恢复力和耗散力,从而产生时间连贯且依赖于历史的展开,且几乎不增加额外成本。不同的初始条件产生多样但合理的运动轨迹,力分解暴露了诸如刚度之类的控制。在九个具有不同宽松服装的日常运动捕获序列中,定量指标和感知用户研究表明,与最近的数据驱动基线相比,动画质量得到了提高。

🔬 方法详解

问题定义:现有基于姿态驱动的全身Avatar动画方法难以准确模拟服装等动态元素的运动,因为这些元素的运动不仅依赖于当前姿态,还受到历史、惯性和接触等因素的影响。现有的物理模拟方法需要服装模板或耗时的物理引擎,而数据驱动的方法则忽略了潜变量的动态演化,导致动画效果不佳,细节模糊,时间连贯性差。

核心思路:本文的核心思路是引入一个动态残差潜变量来捕捉超出姿态驱动信号的时间外观和几何变化。通过学习一个潜变量动态模型,该模型可以根据短姿态历史和先前的潜变量状态来演化残差潜变量,从而模拟服装的运动。这种方法避免了显式的物理模拟,同时考虑了服装运动的历史依赖性。

技术框架:该方法基于一个姿态条件3D高斯Avatar,并在此基础上添加了一个Transformer解码器和一个动态残差潜变量。整体流程如下:1) 输入姿态序列;2) 使用姿态编码器提取姿态特征;3) 使用Transformer解码器将姿态特征和动态残差潜变量解码为3D高斯参数;4) 使用可微分渲染器将3D高斯参数渲染为图像。动态残差潜变量通过一个学习到的潜变量动态模型进行更新,该模型接收短姿态历史和先前的潜变量状态作为输入。

关键创新:该方法最重要的创新点在于引入了动态残差潜变量和相应的潜变量动态模型。与现有方法相比,该方法能够显式地建模服装运动的时间依赖性,从而生成更真实、时间连贯的动画。此外,该方法将潜变量的更新分解为驱动力、恢复力和耗散力,从而可以对服装的运动进行更精细的控制。

关键设计:潜变量动态模型采用Transformer架构,接收短姿态历史和先前的潜变量状态作为输入。损失函数包括渲染损失、正则化损失和时间一致性损失。时间一致性损失用于约束相邻帧之间的潜变量变化,从而保证动画的时间连贯性。力分解通过线性层实现,每个力对应一个线性层,其输出维度与潜变量维度相同。通过调整恢复力的权重,可以控制服装的刚度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在九个具有不同宽松服装的日常运动捕获序列中,与最近的数据驱动基线相比,动画质量得到了显著提高。定量指标显示,该方法在PSNR、SSIM和LPIPS等指标上均优于现有方法。用户研究也表明,用户更喜欢该方法生成的动画,认为其更真实、更自然。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏、电影制作等领域,用于生成更逼真、更自然的全身Avatar动画。例如,在虚拟试衣应用中,用户可以体验不同服装在运动时的效果;在游戏中,可以创建更生动的角色动画;在电影制作中,可以减少对物理特效的依赖。

📄 摘要(原文)

Pose-driven full-body avatars built on neural rendering produce high-quality novel views of a captured subject. Yet loose clothing and other dynamic elements deform in ways pose alone cannot explain: the same pose can correspond to many different states, because their motion depends on history, inertia, and contact. Explicit simulation and layered-garment methods can model such dynamics, but they require either a dedicated garment template, which raw multi-view capture does not naturally provide, or a test-time physics simulator with non-trivial runtime cost. A parallel line of work learns data-driven clothing avatars that avoid explicit garment layers. These methods add an auxiliary latent for variation beyond pose; at inference, they fix it, regress it from pose, or retrieve it from training data, without explicitly modeling how the latent evolves with its own dynamics. Additionally, even in everyday motion with loose clothing, existing architectures often struggle to capture fine-grained detail, producing blurry renderings and temporal artifacts. We augment a pose-conditioned 3D Gaussian avatar with a transformer-based decoder and a dynamics residual latent that captures temporal appearance and geometry variation beyond the driving signals. At inference, a learned latent dynamics model evolves the residual latent from a short pose history and the previous latent state. The model decomposes each update into driving, restoring, and dissipative forces, producing temporally coherent, history-dependent rollouts with negligible added cost. Different initial conditions yield diverse yet plausible motion trajectories, and the force decomposition exposes controls such as stiffness. Across nine captured sequences of everyday motion with diverse loose garments, quantitative metrics and a perceptual user study show improved animation quality over recent data-driven baselines.