MotionBooth: Motion-Aware Customized Text-to-Video Generation
作者: Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen
分类: cs.CV
发布日期: 2024-06-25 (更新: 2024-10-29)
备注: (NeurIPS 2024 Spotlight) Project page at https://jianzongwu.github.io/projects/motionbooth
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
MotionBooth:运动感知的可定制文本到视频生成框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 文本到视频生成 运动控制 个性化定制 交叉注意力机制 潜在空间操作
📋 核心要点
- 现有文本到视频生成方法难以精确控制定制对象的运动,且对特定对象的形状和属性捕捉不足。
- MotionBooth通过微调文本到视频模型,并引入对象区域损失、视频保持损失和交叉注意力损失来解决上述问题。
- 实验结果表明,MotionBooth在保持对象外观的同时,能够有效控制生成的视频中的对象和相机运动。
📝 摘要(中文)
本文提出了MotionBooth,一个创新的框架,旨在通过精确控制物体和相机运动来动画化定制对象。通过利用特定对象的少量图像,我们有效地微调文本到视频模型,以准确捕获对象的形状和属性。我们的方法提出了对象区域损失和视频保持损失,以提高对象的学习性能,以及对象token交叉注意力损失,以将定制对象与运动控制信号集成。此外,我们提出了免训练技术,用于在推理过程中管理对象和相机运动。特别地,我们利用交叉注意力图操作来控制对象运动,并引入了一种新颖的潜在移位模块来控制相机运动。MotionBooth擅长在生成的视频中保持对象的外观,同时控制运动。大量的定量和定性评估证明了我们方法的优越性和有效性。
🔬 方法详解
问题定义:现有文本到视频生成模型在处理用户自定义对象时,难以保证生成视频中对象外观的一致性,并且缺乏对对象和相机运动的精确控制能力。这限制了其在个性化视频内容创作方面的应用。
核心思路:MotionBooth的核心在于通过少量样本学习特定对象的特征,并将其融入到文本到视频的生成过程中。同时,通过解耦对象和相机运动控制,实现对生成视频内容更精细的操控。
技术框架:MotionBooth主要包含以下几个模块:1) 基于少量图像的文本到视频模型微调,用于学习特定对象的形状和属性;2) 对象区域损失和视频保持损失,用于增强对象学习性能并保持视频内容的一致性;3) 对象token交叉注意力损失,用于将定制对象与运动控制信号集成;4) 基于交叉注意力图操作的对象运动控制模块;5) 基于潜在移位模块的相机运动控制模块。
关键创新:MotionBooth的关键创新在于:1) 提出了一种将定制对象与运动控制信号有效集成的交叉注意力机制;2) 设计了一种免训练的潜在移位模块,用于实现对相机运动的灵活控制。这些创新使得MotionBooth能够在保持对象外观的同时,精确控制对象和相机的运动。
关键设计:在损失函数方面,MotionBooth使用了对象区域损失来约束生成视频中对象区域的像素,视频保持损失用于保持生成视频与输入图像的相似性,对象token交叉注意力损失用于将对象特征与运动控制信号对齐。在相机运动控制方面,潜在移位模块通过在潜在空间中平移特征图来实现相机运动的效果,避免了直接修改图像像素带来的伪影。
🖼️ 关键图片
📊 实验亮点
MotionBooth通过定量和定性实验验证了其有效性。实验结果表明,MotionBooth在保持对象外观和控制运动方面均优于现有方法。具体而言,MotionBooth在用户指定的运动控制下,能够生成更逼真、更符合用户需求的视频内容,显著提升了用户体验。
🎯 应用场景
MotionBooth可应用于个性化视频内容创作、虚拟现实/增强现实内容生成、游戏角色动画制作等领域。用户可以通过提供少量目标对象的图像,并指定运动指令,快速生成高质量的定制视频内容,极大地降低了视频创作的门槛,并为相关行业带来新的发展机遇。
📄 摘要(原文)
In this work, we present MotionBooth, an innovative framework designed for animating customized subjects with precise control over both object and camera movements. By leveraging a few images of a specific object, we efficiently fine-tune a text-to-video model to capture the object's shape and attributes accurately. Our approach presents subject region loss and video preservation loss to enhance the subject's learning performance, along with a subject token cross-attention loss to integrate the customized subject with motion control signals. Additionally, we propose training-free techniques for managing subject and camera motions during inference. In particular, we utilize cross-attention map manipulation to govern subject motion and introduce a novel latent shift module for camera movement control as well. MotionBooth excels in preserving the appearance of subjects while simultaneously controlling the motions in generated videos. Extensive quantitative and qualitative evaluations demonstrate the superiority and effectiveness of our method. Our project page is at https://jianzongwu.github.io/projects/motionbooth