EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration

📄 arXiv: 2605.15042v1 📥 PDF

作者: Wuyang Li, Yang Gao, Mariam Hassan, Lan Feng, Wentao Pan, Po-Chien Luan, Alexandre Alahi

分类: cs.CV, cs.AI

发布日期: 2026-05-14

备注: Project Page: https://everanimate.github.io/homepage/


💡 一句话要点

EverAnimate:通过潜在流恢复实现分钟级人物动画生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人物动画生成 长时程视频生成 潜在空间 流恢复 LoRA调优

📋 核心要点

  1. 长时程人物动画生成面临累积漂移问题,导致视觉质量下降和角色身份不一致。
  2. EverAnimate通过持久潜在传播和恢复性流匹配,将生成过程锚定到潜在上下文记忆,从而恢复漂移的流轨迹。
  3. 实验表明,EverAnimate在短时和长时动画生成中均显著优于现有方法,PSNR/SSIM和LPIPS/FID等指标均有提升。

📝 摘要(中文)

本文提出EverAnimate,一种高效的后训练方法,用于生成长时程动画视频,同时保持视觉质量和角色一致性。长时动画生成面临挑战,因为需要在相对静态的环境中合成高度动态的人物运动,导致基于分块的生成容易产生累积漂移:(i)低级质量漂移,例如静态背景的逐渐退化;(ii)高级语义漂移,例如角色身份和视角相关属性的不一致。为了解决这个问题,EverAnimate通过将生成锚定到持久的潜在上下文记忆来恢复漂移的流轨迹,该记忆由两个互补机制组成。(i)持久潜在传播在块之间维护上下文记忆,以在潜在空间中传播身份和运动,同时减轻时间遗忘。(ii)恢复性流匹配通过速度调整在采样过程中引入隐式恢复目标,从而提高块内保真度。仅使用轻量级LoRA调优,EverAnimate在短时和长时设置中均优于最先进的长动画方法:在10秒时,PSNR/SSIM提高了8%/7%,LPIPS/FID降低了22%/11%;在90秒时,增益分别增加到15%/15%和32%/27%。

🔬 方法详解

问题定义:论文旨在解决长时程人物动画生成中存在的累积漂移问题。现有方法,特别是基于分块的生成方法,容易在长时间序列上出现视觉质量下降(如背景模糊)和语义不一致(如角色身份漂移)的问题,严重影响动画的观感。

核心思路:EverAnimate的核心思路是通过维护一个持久的潜在上下文记忆,并在生成过程中利用该记忆来恢复漂移的流轨迹。这种方法将生成过程锚定到一个稳定的参考点,从而减少累积误差,保证动画的连贯性和一致性。

技术框架:EverAnimate采用后训练的方式,在预训练的生成模型基础上进行微调。其主要包含两个核心模块:(1)持久潜在传播(Persistent Latent Propagation):在分块生成过程中,维护一个跨块的潜在上下文记忆,用于传播角色身份和运动信息,减轻时间遗忘。(2)恢复性流匹配(Restorative Flow Matching):在采样过程中,通过调整速度来引入隐式的恢复目标,从而提高块内的生成质量。

关键创新:EverAnimate的关键创新在于将潜在空间中的信息流动与显式的流恢复目标相结合。持久潜在传播保证了长期一致性,而恢复性流匹配则提升了短期保真度。这种双重机制有效地解决了长时程动画生成中的累积漂移问题。与现有方法相比,EverAnimate无需从头训练模型,而是通过轻量级的LoRA调优即可实现显著的性能提升。

关键设计:持久潜在传播的具体实现方式未知,但可以推测其可能涉及循环神经网络或Transformer等结构,用于编码和传递潜在状态。恢复性流匹配可能通过引入额外的损失函数,鼓励生成的视频帧与潜在记忆中的信息保持一致。LoRA调优的具体参数设置也未知,但轻量级调优表明该方法具有较好的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EverAnimate在10秒动画生成中,PSNR/SSIM提高了8%/7%,LPIPS/FID降低了22%/11%;在90秒动画生成中,PSNR/SSIM提高了15%/15%,LPIPS/FID降低了32%/27%。这些数据表明,EverAnimate在长时程动画生成方面具有显著的优势,能够有效提升视觉质量和角色一致性。

🎯 应用场景

EverAnimate在游戏开发、电影制作、虚拟现实等领域具有广泛的应用前景。它可以用于生成高质量、长时程的人物动画,降低动画制作的成本和时间。此外,该方法还可以应用于虚拟角色的创建和控制,为用户提供更加逼真和自然的交互体验。未来,该技术有望进一步发展,实现更加复杂和精细的动画生成。

📄 摘要(原文)

We propose EverAnimate, an efficient post-training method for long-horizon animated video generation that preserves visual quality and character identity. Long-form animation remains challenging because highly dynamic human motion must be synthesized against relatively static environments, making chunk-based generation prone to accumulated drift: (i) low-level quality drift, such as progressive degradation of static backgrounds, and (ii) high-level semantic drift, such as inconsistent character identity and view-dependent attributes. To address this issue, EverAnimate restores drifted flow trajectories by anchoring generation to a persistent latent context memory, consisting of two complementary mechanisms. (i) Persistent Latent Propagation maintains a context memory across chunks to propagate identity and motion in latent space while mitigating temporal forgetting. (ii) Restorative Flow Matching introduces an implicit restoration objective during sampling through velocity adjustment, improving within-chunk fidelity. With only lightweight LoRA tuning, EverAnimate outperforms state-of-the-art long-animation methods in both short- and long-horizon settings: at 10 seconds, it improves PSNR/SSIM by 8%/7% and reduces LPIPS/FID by 22%/11%; at 90 seconds, the gains increase to 15%/15% and 32%/27%, respectively.