AnyAct: Towards Human Reenactment of Character Motion From Video

📄 arXiv: 2605.15497v1 📥 PDF

作者: Liuhan Chen, Lei Zhong, Jiewei Wang, Qin Shuai, Li Yuan, Leidong Fan, Qing Li, Kanglin Liu

分类: cs.CV, cs.GR

发布日期: 2026-05-15

备注: 12 pages


💡 一句话要点

AnyAct:提出一种从角色视频到人体表演的重定向方法

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体表演 运动重定向 视频动画 非人角色 运动捕捉

📋 核心要点

  1. 现有方法难以将非人角色的视频运动转化为可编辑的人体表演,因为它们依赖于以人为中心的结构空间或需要结构化的3D源运动。
  2. AnyAct的核心思想是利用稀疏的局部关节运动线索,作为连接角色视频和人体表演的桥梁,从而保持运动动力学。
  3. AnyAct通过纯人体运动监督、渐进式训练和全局-局部运动解耦等关键设计,实现了高保真度的人体表演重定向,并在新基准上验证了有效性。

📝 摘要(中文)

本文研究了直接从非人角色的单目视频中推导出初始人体表演的问题。我们的目标不是重建源角色本身,而是将它的运动重新解释为合理且可编辑的人体表演,以用于下游动画创作。这项任务具有挑战性,因为现有的基于视频的运动捕捉方法主要局限于以人为中心的结构空间,而运动重定向方法通常需要结构化的3D源运动和已知的源拓扑。我们的关键见解是,稀疏的局部关节运动线索可以跨越大的结构差异来保持基本的动力学,从而为角色视频到人体表演提供稳定的桥梁。基于此,我们提出了AnyAct,它将角色视频驱动的人体表演构建为可转移的稀疏局部2D关节运动的条件人体运动生成。为了使之实用,我们引入了三个关键设计:通过增强的3D到2D投影进行纯人体运动监督,通过渐进式3D到2D训练来缓解条件模糊性,以及用于可靠的局部运动控制的全局-局部运动解耦。我们进一步构建了一个主要涵盖各种非人角色视频的基准。在该基准上的实验表明,AnyAct产生高保真度的初始人体表演,保留了参考视频中角色的基本动力学,进一步的消融研究验证了其核心设计的有效性。

🔬 方法详解

问题定义:论文旨在解决从非人角色的单目视频中,自动生成对应的人体表演的问题。现有基于视频的运动捕捉方法通常针对人体结构设计,难以直接应用于非人角色。运动重定向方法则需要结构化的3D源运动和已知的源拓扑,限制了其应用范围。因此,如何将非人角色的运动转化为可编辑的人体表演是一个挑战。

核心思路:论文的核心思路是利用稀疏的局部关节运动线索,这些线索能够跨越结构差异,保留运动的关键动力学信息。通过将角色视频中的运动信息编码为稀疏的2D关节运动,并将其作为条件,生成对应的人体运动。这种方法避免了直接重建非人角色3D结构的需求,从而实现了更广泛的适用性。

技术框架:AnyAct的整体框架包括以下几个主要模块:1) 2D关节检测器,用于从角色视频中提取稀疏的2D关节位置;2) 人体运动生成器,该生成器以2D关节位置作为条件,生成对应的3D人体运动;3) 损失函数,用于约束生成的人体运动与参考视频中的运动一致。训练过程采用渐进式3D到2D训练策略,逐步提高生成器的性能。

关键创新:论文的关键创新在于提出了一种基于稀疏局部关节运动的运动重定向方法,该方法能够处理非人角色的视频,并生成对应的人体表演。与现有方法相比,AnyAct不需要重建非人角色的3D结构,也不需要结构化的3D源运动,从而具有更广泛的适用性。

关键设计:AnyAct的关键设计包括:1) 通过增强的3D到2D投影进行纯人体运动监督,避免了对非人角色进行标注的需求;2) 渐进式3D到2D训练,逐步提高生成器的性能,缓解条件模糊性;3) 全局-局部运动解耦,将运动分解为全局运动和局部运动,从而实现更可靠的局部运动控制。损失函数包括2D关节位置损失、3D关节位置损失和运动平滑损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AnyAct能够生成高保真度的人体表演,保留了参考视频中角色的基本动力学。在作者构建的基准测试中,AnyAct在运动相似性和视觉质量方面均优于现有方法。消融研究验证了纯人体运动监督、渐进式训练和全局-局部运动解耦等关键设计的有效性。具体性能数据未知,但实验结果表明AnyAct在非人角色运动重定向方面具有显著优势。

🎯 应用场景

AnyAct具有广泛的应用前景,例如游戏角色动画制作、虚拟现实内容生成、以及电影特效制作等。它可以帮助动画师快速生成逼真的人体表演,从而提高工作效率。此外,AnyAct还可以用于将动物或卡通角色的运动转化为人体表演,从而创造出更具表现力的动画作品。该研究的未来影响在于降低了人体表演动画制作的门槛,使得更多人能够参与到动画创作中。

📄 摘要(原文)

We study the problem of directly deriving an initial human reenactment from a monocular video of a non-human character. Our goal is not to reconstruct the source character itself but to reinterpret its motion as a plausible and editable human performance for downstream animation authoring. This task is challenging because existing video-based motion capture methods are largely restricted to human-centric structural spaces, while motion retargeting methods typically require structured 3D source motions and known source topologies. Our key insight is that sparse local articulated motion cues can preserve essential dynamics across large structural differences, providing a stable bridge from character video to human reenactment. Based on this observation, we propose AnyAct, which formulates character-video-driven human reenactment as conditional human motion generation from transferable sparse local 2D articulated motion. To make this practical, we introduce three key designs: human-motion-only supervision via augmented 3D-to-2D projection, progressive 3D-to-2D training to alleviate conditioning ambiguity, and global-local motion decoupling for reliable local motion control. We further construct a benchmark primarily covering diverse non-human character videos. Experiments on the benchmark show that AnyAct produces high-fidelity initial human reenactments that preserve the essential dynamics of the characters in reference videos, and further ablation studies validate the effectiveness of its core designs.