UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models
作者: Tianxing Xu, Zixuan Wang, Guangyuan Wang, Li Hu, Zhongyi Zhang, Peng Zhang, Bang Zhang, Song-Hai Zhang
分类: cs.CV
发布日期: 2026-02-28
💡 一句话要点
UCM:基于时间感知位置编码扭曲的相机控制与记忆统一世界模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 视频生成 相机控制 长期一致性 位置编码 扩散模型 Transformer 时间感知
📋 核心要点
- 现有世界模型在长期场景一致性和精确相机控制方面存在不足,尤其是在无界场景和精细结构中。
- UCM通过时间感知位置编码扭曲机制,统一长期记忆和相机控制,从而实现更强的场景一致性和可控性。
- UCM在真实和合成数据集上表现出色,显著提升了长期场景一致性,并实现了高保真视频生成中的精确相机控制。
📝 摘要(中文)
基于视频生成的世界模型在模拟交互式环境方面展现出卓越潜力,但在两个关键领域面临持续挑战:场景重访时保持长期内容一致性,以及实现用户输入下的精确相机控制。现有基于显式3D重建的方法通常会牺牲在无界场景和精细结构中的灵活性。其他方法直接依赖先前生成的帧,而不建立显式空间对应关系,从而限制了可控性和一致性。为了解决这些限制,我们提出了UCM,一种新颖的框架,它通过时间感知位置编码扭曲机制统一了长期记忆和精确相机控制。为了降低计算开销,我们设计了一个高效的双流扩散Transformer用于高保真生成。此外,我们引入了一种可扩展的数据管理策略,利用基于点云的渲染来模拟场景重访,从而促进了超过50万个单目视频的训练。在真实世界和合成基准上的大量实验表明,UCM在长期场景一致性方面显著优于最先进的方法,同时还在高保真视频生成中实现了精确的相机可控性。
🔬 方法详解
问题定义:现有基于视频生成的世界模型在模拟交互式环境时,难以同时保证长期场景的一致性以及精确的相机控制。基于3D重建的方法在无界场景和精细结构中缺乏灵活性,而直接依赖先前生成帧的方法则缺乏空间对应关系,导致可控性和一致性受限。
核心思路:UCM的核心思路是通过时间感知的位置编码扭曲机制,将长期记忆和精确的相机控制统一起来。通过学习场景中不同时间点的位置编码,并利用相机控制信号对这些编码进行扭曲,从而实现对生成视频内容的精确控制和长期一致性。
技术框架:UCM采用双流扩散Transformer架构。其中一个流处理长期记忆,另一个流处理相机控制信息。时间感知位置编码被用于对长期记忆流中的特征进行编码,而相机控制流则负责对这些编码进行扭曲,最终融合两个流的信息生成视频帧。该框架包含数据收集、模型训练和视频生成三个主要阶段。
关键创新:UCM的关键创新在于时间感知的位置编码扭曲机制。该机制能够有效地将时间信息和相机控制信息融合在一起,从而实现对生成视频内容的精确控制和长期一致性。此外,双流扩散Transformer架构和可扩展的数据管理策略也是重要的创新点。
关键设计:UCM使用扩散模型作为其生成模型,并采用Transformer架构来处理序列数据。时间感知位置编码的具体实现方式未知,但推测是基于时间戳对特征进行编码。损失函数的设计目标是最小化生成视频与真实视频之间的差异,并鼓励长期场景的一致性。双流Transformer的具体结构和参数设置未知。
🖼️ 关键图片
📊 实验亮点
UCM在长期场景一致性方面显著优于现有方法,并在高保真视频生成中实现了精确的相机可控性。在真实世界和合成基准上的实验结果表明,UCM能够生成更逼真、更一致的视频内容。具体的性能数据和提升幅度在论文中进行了详细的展示。
🎯 应用场景
UCM具有广泛的应用前景,包括虚拟现实、游戏开发、机器人导航等领域。它可以用于创建更加逼真和可交互的虚拟环境,提升用户体验。在机器人导航方面,UCM可以帮助机器人更好地理解和预测周围环境的变化,从而实现更安全和高效的导航。
📄 摘要(原文)
World models based on video generation demonstrate remarkable potential for simulating interactive environments but face persistent difficulties in two key areas: maintaining long-term content consistency when scenes are revisited and enabling precise camera control from user-provided inputs. Existing methods based on explicit 3D reconstruction often compromise flexibility in unbounded scenarios and fine-grained structures. Alternative methods rely directly on previously generated frames without establishing explicit spatial correspondence, thereby constraining controllability and consistency. To address these limitations, we present UCM, a novel framework that unifies long-term memory and precise camera control via a time-aware positional encoding warping mechanism. To reduce computational overhead, we design an efficient dual-stream diffusion transformer for high-fidelity generation. Moreover, we introduce a scalable data curation strategy utilizing point-cloud-based rendering to simulate scene revisiting, facilitating training on over 500K monocular videos. Extensive experiments on real-world and synthetic benchmarks demonstrate that UCM significantly outperforms state-of-the-art methods in long-term scene consistency, while also achieving precise camera controllability in high-fidelity video generation.