ATI: Any Trajectory Instruction for Controllable Video Generation
作者: Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma
分类: cs.CV, cs.AI
发布日期: 2025-05-28 (更新: 2025-06-10)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出统一框架以实现可控视频生成的轨迹指令
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 视频生成 运动控制 轨迹输入 深度学习 计算机视觉 生成模型 可控性 虚拟现实
📋 核心要点
- 现有方法通常通过独立模块处理视频生成中的不同运动类型,导致整体控制能力不足。
- 本研究提出了一种统一框架,通过轨迹输入实现相机运动、对象平移和局部运动的综合控制。
- 实验结果显示,该方法在多个任务中显著提升了可控性和视觉质量,超越了现有技术和商业解决方案。
📝 摘要(中文)
我们提出了一种统一的框架,用于视频生成中的运动控制,该框架无缝集成了相机运动、对象级平移和细粒度局部运动,使用基于轨迹的输入。与以往通过独立模块或任务特定设计处理这些运动类型的方法不同,我们的方法通过轻量级运动注入器将用户定义的轨迹投影到预训练图像到视频生成模型的潜在空间中。用户可以指定关键点及其运动路径,以控制局部变形、整个对象运动、虚拟相机动态或这些的组合。注入的轨迹信号引导生成过程产生时间一致且语义对齐的运动序列。我们的框架在多个视频运动控制任务中表现出优越的性能,包括风格化运动效果、动态视角变化和精确的局部运动操控。实验表明,我们的方法在可控性和视觉质量上显著优于以往方法和商业解决方案,同时与多种最先进的视频生成基础架构广泛兼容。
🔬 方法详解
问题定义:本论文旨在解决视频生成中运动控制的复杂性,现有方法往往将相机运动、对象运动和局部运动分开处理,导致控制效果不佳。
核心思路:我们提出的框架通过轻量级运动注入器将用户定义的轨迹投影到预训练模型的潜在空间中,从而实现对运动的统一控制。这样的设计使得用户可以灵活指定运动路径,增强了生成的可控性。
技术框架:整体架构包括三个主要模块:轨迹输入模块、运动注入器和生成模型。用户通过轨迹输入模块定义运动路径,运动注入器将这些路径映射到生成模型的潜在空间中,最终生成模型负责生成视频序列。
关键创新:本研究的核心创新在于将不同类型的运动控制整合到一个统一框架中,解决了以往方法的模块化限制,使得生成过程更加连贯和一致。
关键设计:在技术细节上,我们设计了特定的损失函数来确保生成视频的时间一致性和语义对齐,同时优化了运动注入器的参数设置,以提高生成质量。实验中使用的网络结构与现有的图像到视频生成模型兼容,确保了广泛的适用性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,我们的方法在多个视频运动控制任务中表现优异,相较于传统方法和商业解决方案,提升了可控性和视觉质量,具体表现为在运动效果和局部操控方面的显著改善。
🎯 应用场景
该研究的潜在应用领域包括电影制作、游戏开发和虚拟现实等,能够为创作者提供更高效的工具来生成可控的视频内容。未来,该技术可能会在自动化视频编辑和个性化内容生成方面发挥重要作用。
📄 摘要(原文)
We propose a unified framework for motion control in video generation that seamlessly integrates camera movement, object-level translation, and fine-grained local motion using trajectory-based inputs. In contrast to prior methods that address these motion types through separate modules or task-specific designs, our approach offers a cohesive solution by projecting user-defined trajectories into the latent space of pre-trained image-to-video generation models via a lightweight motion injector. Users can specify keypoints and their motion paths to control localized deformations, entire object motion, virtual camera dynamics, or combinations of these. The injected trajectory signals guide the generative process to produce temporally consistent and semantically aligned motion sequences. Our framework demonstrates superior performance across multiple video motion control tasks, including stylized motion effects (e.g., motion brushes), dynamic viewpoint changes, and precise local motion manipulation. Experiments show that our method provides significantly better controllability and visual quality compared to prior approaches and commercial solutions, while remaining broadly compatible with various state-of-the-art video generation backbones. Project page: https://anytraj.github.io/.