SymphoMotion: Joint Control of Camera Motion and Object Dynamics for Coherent Video Generation

📄 arXiv: 2604.03723 📥 PDF

作者: Guiyu Zhang, Yabo Chen, Xunzhi Xiang, Junchao Huang, Zhongyu Wang, Li Jiang

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

SymphoMotion:联合控制相机运动和物体动态,实现连贯视频生成

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视频生成 相机运动控制 物体动态控制 3D轨迹嵌入 几何感知 运动解耦 数据集 深度学习

📋 核心要点

  1. 现有方法通常仅处理单一运动类型,或依赖于模糊的2D线索,难以区分相机引起的视差和真实的物体运动。
  2. SymphoMotion通过统一的框架,同时控制相机轨迹和物体动态,利用几何感知线索和3D轨迹嵌入,实现更精确的运动控制。
  3. 实验结果表明,SymphoMotion在视觉质量、相机控制和物体运动精度上均优于现有方法,并构建了大规模数据集RealCOD-25K。

📝 摘要(中文)

本文提出SymphoMotion,一个统一的运动控制框架,用于联合控制相机轨迹和物体动态,以实现连贯且富有表现力的视频生成。该框架包含相机轨迹控制机制,它将显式相机路径与几何感知线索相结合,以确保稳定且结构一致的视点转换;以及物体动态控制机制,它结合了2D视觉引导和3D轨迹嵌入,以实现深度感知和空间连贯的物体操作。为了支持大规模训练和评估,作者构建了RealCOD-25K,一个全面的真实世界数据集,包含各种室内和室外场景中配对的相机姿势和物体级3D轨迹,解决了统一运动控制中的关键数据缺口。大量实验和用户研究表明,SymphoMotion在视觉保真度、相机可控性和物体运动精度方面显著优于现有方法,为视频中统一运动控制建立了一个新的基准。

🔬 方法详解

问题定义:现有视频生成方法在控制相机运动和物体动态方面存在局限性。它们要么只能控制其中一种运动,要么依赖于2D信息,导致相机视差和物体运动混淆,难以生成连贯且可控的视频。缺乏大规模的、包含相机姿态和物体3D轨迹的真实世界数据集也限制了相关研究的进展。

核心思路:SymphoMotion的核心思路是将相机运动控制和物体动态控制统一到一个框架中,通过显式的相机轨迹控制和深度感知的物体动态控制,解耦相机视差和物体运动。利用几何信息和3D轨迹嵌入,实现更精确、更可控的视频生成。

技术框架:SymphoMotion包含两个主要模块:相机轨迹控制模块和物体动态控制模块。相机轨迹控制模块接收显式的相机路径作为输入,并结合几何感知线索,生成稳定的视点转换。物体动态控制模块接收2D视觉引导和3D轨迹嵌入作为输入,生成深度感知和空间连贯的物体运动。这两个模块共同作用,生成具有可控相机运动和物体动态的视频。

关键创新:SymphoMotion的关键创新在于其统一的运动控制框架,能够同时控制相机运动和物体动态,并利用几何信息和3D轨迹嵌入来解耦相机视差和物体运动。此外,RealCOD-25K数据集的构建也为相关研究提供了重要的数据支持。与现有方法相比,SymphoMotion能够生成更连贯、更可控的视频。

关键设计:相机轨迹控制模块使用几何感知损失函数来约束视点转换的稳定性。物体动态控制模块使用深度感知损失函数来约束物体运动的空间连贯性。RealCOD-25K数据集包含各种室内和室外场景中配对的相机姿势和物体级3D轨迹,为模型的训练和评估提供了丰富的数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SymphoMotion在多个数据集上进行了评估,并在视觉保真度、相机可控性和物体运动精度方面显著优于现有方法。用户研究表明,SymphoMotion生成的视频更逼真、更可控。RealCOD-25K数据集的发布为统一运动控制领域的研究提供了重要的数据支持。

🎯 应用场景

SymphoMotion具有广泛的应用前景,例如虚拟现实/增强现实内容创作、游戏开发、电影制作等。它可以用于生成具有复杂相机运动和物体动态的逼真视频,提升用户体验。此外,该技术还可以应用于机器人导航、自动驾驶等领域,帮助机器人更好地理解和操纵周围环境。

📄 摘要(原文)

Controlling both camera motion and object dynamics is essential for coherent and expressive video generation, yet current methods typically handle only one motion type or rely on ambiguous 2D cues that entangle camera-induced parallax with true object movement. We present SymphoMotion, a unified motion-control framework that jointly governs camera trajectories and object dynamics within a single model. SymphoMotion features a Camera Trajectory Control mechanism that integrates explicit camera paths with geometry-aware cues to ensure stable, structurally consistent viewpoint transitions, and an Object Dynamics Control mechanism that combines 2D visual guidance with 3D trajectory embeddings to enable depth-aware, spatially coherent object manipulation. To support large-scale training and evaluation, we further construct RealCOD-25K, a comprehensive real-world dataset containing paired camera poses and object-level 3D trajectories across diverse indoor and outdoor scenes, addressing a key data gap in unified motion control. Extensive experiments and user studies show that SymphoMotion significantly outperforms existing methods in visual fidelity, camera controllability, and object-motion accuracy, establishing a new benchmark for unified motion control in videothis http URLand data are publicly available atthis https URL.