DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

📄 arXiv: 2601.21716v1 📥 PDF

作者: Mingshuang Luo, Shuang Liang, Zhengkun Rong, Yuxuan Luo, Tianshu Hu, Ruibing Hou, Hong Chang, Yong Li, Yuan Zhang, Mingyuan Gao

分类: cs.CV, cs.AI

发布日期: 2026-01-29

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

DreamActor-M2:基于时空上下文学习的通用角色图像动画框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱八:物理动画 (Physics-based Animation)

关键词: 角色动画 图像动画 上下文学习 时空建模 跨域泛化

📋 核心要点

  1. 现有角色动画方法在身份保持和运动一致性之间存在权衡,且过度依赖姿势先验,限制了对非人形角色的泛化能力。
  2. DreamActor-M2将运动条件化视为上下文学习问题,通过融合外观和运动信息到统一潜在空间,实现更有效的运动注入。
  3. 该方法引入自引导数据合成流程,生成伪跨身份训练数据,显著提升了模型在不同角色和运动场景下的泛化能力。

📝 摘要(中文)

角色图像动画旨在通过将运动从驱动序列转移到静态参考图像来合成高保真视频。现有方法面临两个主要挑战:(1)次优的运动注入策略导致身份保持和运动一致性之间的权衡,表现为“跷跷板”现象;(2)过度依赖显式姿势先验(例如,骨骼),无法充分捕捉复杂的动态,并阻碍了对任意非人形角色的泛化。为了解决这些挑战,我们提出了DreamActor-M2,一个通用的动画框架,它将运动条件化重新定义为上下文学习问题。我们的方法遵循两阶段范式。首先,我们通过将参考外观和运动线索融合到统一的潜在空间中来弥合输入模态差距,使模型能够通过利用基础模型的生成先验来共同推理空间身份和时间动态。其次,我们引入了一个自引导数据合成流程,该流程策划伪跨身份训练对,从而促进从依赖于姿势的控制到直接的端到端RGB驱动动画的无缝过渡。这种策略显著增强了跨不同角色和运动场景的泛化能力。为了方便全面的评估,我们进一步引入了AW Bench,一个包含各种角色类型和运动场景的多功能基准。大量实验表明,DreamActor-M2实现了最先进的性能,提供了卓越的视觉保真度和强大的跨域泛化能力。

🔬 方法详解

问题定义:现有角色图像动画方法主要存在两个痛点:一是运动注入策略不佳,导致身份保持和运动一致性难以兼顾,出现“跷跷板”效应;二是过度依赖显式的姿势先验(如骨骼),难以捕捉复杂动态,限制了对非人形角色的泛化能力。

核心思路:DreamActor-M2的核心思路是将运动条件化问题重新定义为上下文学习问题。通过将参考图像的外观信息和驱动序列的运动信息融合到一个统一的潜在空间中,模型可以同时理解角色的身份特征和运动模式,从而实现更自然、更逼真的动画效果。

技术框架:DreamActor-M2采用两阶段框架。第一阶段,通过编码器将参考图像和驱动序列编码到统一的潜在空间,实现跨模态的信息融合。第二阶段,利用解码器从潜在空间生成动画视频。此外,还引入了自引导数据合成流程,生成伪跨身份训练对,用于提升模型的泛化能力。

关键创新:DreamActor-M2的关键创新在于将运动条件化视为上下文学习,并提出了一种自引导数据合成方法。与传统方法依赖显式姿势先验不同,DreamActor-M2直接从RGB图像中学习运动模式,从而更好地捕捉复杂动态,并实现对任意角色的动画。

关键设计:DreamActor-M2的关键设计包括:(1) 使用Transformer架构进行时空上下文建模;(2) 设计了专门的损失函数,用于约束身份保持和运动一致性;(3) 采用对抗训练的方式,提升生成视频的真实感;(4) 自引导数据合成流程,通过替换不同角色的外观和运动,生成大量的训练数据。

📊 实验亮点

DreamActor-M2在AW Bench基准测试中取得了最先进的性能,在视觉保真度和跨域泛化能力方面均优于现有方法。实验结果表明,DreamActor-M2能够生成更逼真、更自然的动画视频,并且能够很好地适应各种不同的角色和运动场景。相较于其他方法,在多个指标上取得了显著提升。

🎯 应用场景

DreamActor-M2具有广泛的应用前景,可用于电影制作、游戏开发、虚拟现实、社交媒体等领域。它可以帮助用户轻松地创建各种角色的动画视频,例如将自己的照片变成动画人物,或者让虚拟角色表演各种动作。该技术还可以用于生成训练数据,以改进其他计算机视觉任务的性能。

📄 摘要(原文)

Character image animation aims to synthesize high-fidelity videos by transferring motion from a driving sequence to a static reference image. Despite recent advancements, existing methods suffer from two fundamental challenges: (1) suboptimal motion injection strategies that lead to a trade-off between identity preservation and motion consistency, manifesting as a "see-saw", and (2) an over-reliance on explicit pose priors (e.g., skeletons), which inadequately capture intricate dynamics and hinder generalization to arbitrary, non-humanoid characters. To address these challenges, we present DreamActor-M2, a universal animation framework that reimagines motion conditioning as an in-context learning problem. Our approach follows a two-stage paradigm. First, we bridge the input modality gap by fusing reference appearance and motion cues into a unified latent space, enabling the model to jointly reason about spatial identity and temporal dynamics by leveraging the generative prior of foundational models. Second, we introduce a self-bootstrapped data synthesis pipeline that curates pseudo cross-identity training pairs, facilitating a seamless transition from pose-dependent control to direct, end-to-end RGB-driven animation. This strategy significantly enhances generalization across diverse characters and motion scenarios. To facilitate comprehensive evaluation, we further introduce AW Bench, a versatile benchmark encompassing a wide spectrum of characters types and motion scenarios. Extensive experiments demonstrate that DreamActor-M2 achieves state-of-the-art performance, delivering superior visual fidelity and robust cross-domain generalization. Project Page: https://grisoon.github.io/DreamActor-M2/