NewMove: Customizing text-to-video models with novel motions
作者: Joanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell
分类: cs.CV
发布日期: 2023-12-07 (更新: 2024-12-10)
备注: Project page: this website https://joaanna.github.io/customizing_motion/
💡 一句话要点
NewMove:通过定制运动扩展文本到视频生成模型的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到视频生成 运动定制 视频正则化 迁移学习 多模态学习
📋 核心要点
- 现有文本到视频模型在生成超出训练数据范围的特定运动时存在局限性。
- 通过微调文本到视频模型,学习输入运动示例与新token的映射,实现运动定制。
- 实验表明,该方法能生成多人运动视频,并优于基于外观的定制方法。
📝 摘要(中文)
本文提出了一种增强文本到视频生成模型的方法,使其具备定制运动的能力,从而超越原始训练数据中描绘的运动范围。该方法利用少量展示特定运动的视频样本作为输入,学习并泛化这些运动模式,应用于各种文本指定的场景。主要贡献有三点:首先,通过微调现有的文本到视频模型,学习输入示例中描绘的运动与新的唯一token之间的映射。为了避免对新自定义运动的过拟合,引入了一种视频正则化方法。其次,利用预训练模型中的运动先验,该方法可以生成多人执行自定义运动的新视频,并将该运动与其他运动结合。此外,该方法还扩展到个体化对象运动和外观的多模态定制,从而生成具有独特角色和不同运动的视频。第三,为了验证该方法,引入了一种定量评估学习到的自定义运动的方法,并进行了系统的消融研究。结果表明,当扩展到运动定制任务时,该方法显著优于以往基于外观的定制方法。
🔬 方法详解
问题定义:现有的文本到视频生成模型通常受限于其训练数据中包含的运动类型。当需要生成包含特定、新颖运动的视频时,这些模型往往表现不佳。现有的基于外观的定制方法在运动定制任务中效果有限,难以准确捕捉和泛化复杂的运动模式。因此,如何使文本到视频模型能够根据少量示例学习并生成具有定制运动的视频是一个关键问题。
核心思路:本文的核心思路是通过微调预训练的文本到视频模型,使其能够将输入的运动示例映射到一个新的、唯一的token。这个token代表了用户想要定制的特定运动。通过学习这种映射关系,模型可以将该运动应用到不同的文本描述场景中,从而生成具有定制运动的视频。为了防止过拟合,论文还引入了视频正则化方法。
技术框架:该方法主要包含以下几个阶段:1) 收集少量包含目标运动的视频样本。2) 使用这些样本微调预训练的文本到视频模型。微调过程中,模型学习将输入视频中的运动映射到一个新的token。3) 在生成视频时,用户可以使用该token来指定模型生成包含目标运动的视频。整个框架利用了预训练模型的运动先验知识,并结合了微调和正则化技术,实现了运动定制。
关键创新:该方法最重要的技术创新点在于提出了一种基于token映射的运动定制方法。与以往基于外观的定制方法不同,该方法直接学习运动模式与token之间的关系,从而能够更准确地捕捉和泛化运动。此外,该方法还引入了视频正则化技术,有效防止了过拟合,提高了生成视频的质量。
关键设计:在微调过程中,论文使用了对比学习损失函数,鼓励模型将相似的运动映射到相近的token表示。视频正则化通过对生成视频的运动轨迹进行约束,防止模型生成不自然的运动。具体的网络结构和参数设置取决于所使用的预训练文本到视频模型,但核心思想是利用微调和正则化来学习运动模式与token之间的映射关系。
📊 实验亮点
实验结果表明,该方法在运动定制任务中显著优于以往基于外观的定制方法。通过定量评估学习到的自定义运动,证明了该方法能够准确捕捉和泛化运动模式。消融研究验证了视频正则化技术在防止过拟合和提高生成视频质量方面的有效性。具体性能数据未知,但论文强调了其方法在运动定制方面的显著优势。
🎯 应用场景
该研究成果可广泛应用于视频内容创作、虚拟现实、游戏开发等领域。例如,用户可以定制虚拟角色的舞蹈动作,或生成包含特定运动的教学视频。该技术还可用于生成个性化的运动训练视频,根据用户的需求定制运动内容。未来,该技术有望进一步发展,实现更精细的运动控制和更逼真的视频生成。
📄 摘要(原文)
We introduce an approach for augmenting text-to-video generation models with customized motions, extending their capabilities beyond the motions depicted in the original training data. By leveraging a few video samples demonstrating specific movements as input, our method learns and generalizes the input motion patterns for diverse, text-specified scenarios. Our contributions are threefold. First, to achieve our results, we finetune an existing text-to-video model to learn a novel mapping between the depicted motion in the input examples to a new unique token. To avoid overfitting to the new custom motion, we introduce an approach for regularization over videos. Second, by leveraging the motion priors in a pretrained model, our method can produce novel videos featuring multiple people doing the custom motion, and can invoke the motion in combination with other motions. Furthermore, our approach extends to the multimodal customization of motion and appearance of individualized subjects, enabling the generation of videos featuring unique characters and distinct motions. Third, to validate our method, we introduce an approach for quantitatively evaluating the learned custom motion and perform a systematic ablation study. We show that our method significantly outperforms prior appearance-based customization approaches when extended to the motion customization task.