UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

作者: Tianxing Xu, Zixuan Wang, Guangyuan Wang, Li Hu, Zhongyi Zhang, Peng Zhang, Bang Zhang, Song-Hai Zhang

分类: cs.CV

发布日期: 2026-02-28

💡 一句话要点

UCM：基于时间感知位置编码扭曲的相机控制与记忆统一世界模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 视频生成 相机控制 长期一致性 位置编码 扩散模型 Transformer 时间感知

📋 核心要点

现有世界模型在长期场景一致性和精确相机控制方面存在不足，尤其是在无界场景和精细结构中。
UCM通过时间感知位置编码扭曲机制，统一长期记忆和相机控制，从而实现更强的场景一致性和可控性。
UCM在真实和合成数据集上表现出色，显著提升了长期场景一致性，并实现了高保真视频生成中的精确相机控制。

📝 摘要（中文）

基于视频生成的世界模型在模拟交互式环境方面展现出卓越潜力，但在两个关键领域面临持续挑战：场景重访时保持长期内容一致性，以及实现用户输入下的精确相机控制。现有基于显式3D重建的方法通常会牺牲在无界场景和精细结构中的灵活性。其他方法直接依赖先前生成的帧，而不建立显式空间对应关系，从而限制了可控性和一致性。为了解决这些限制，我们提出了UCM，一种新颖的框架，它通过时间感知位置编码扭曲机制统一了长期记忆和精确相机控制。为了降低计算开销，我们设计了一个高效的双流扩散Transformer用于高保真生成。此外，我们引入了一种可扩展的数据管理策略，利用基于点云的渲染来模拟场景重访，从而促进了超过50万个单目视频的训练。在真实世界和合成基准上的大量实验表明，UCM在长期场景一致性方面显著优于最先进的方法，同时还在高保真视频生成中实现了精确的相机可控性。

🔬 方法详解

问题定义：现有基于视频生成的世界模型在模拟交互式环境时，难以同时保证长期场景的一致性以及精确的相机控制。基于3D重建的方法在无界场景和精细结构中缺乏灵活性，而直接依赖先前生成帧的方法则缺乏空间对应关系，导致可控性和一致性受限。

核心思路：UCM的核心思路是通过时间感知的位置编码扭曲机制，将长期记忆和精确的相机控制统一起来。通过学习场景中不同时间点的位置编码，并利用相机控制信号对这些编码进行扭曲，从而实现对生成视频内容的精确控制和长期一致性。

技术框架：UCM采用双流扩散Transformer架构。其中一个流处理长期记忆，另一个流处理相机控制信息。时间感知位置编码被用于对长期记忆流中的特征进行编码，而相机控制流则负责对这些编码进行扭曲，最终融合两个流的信息生成视频帧。该框架包含数据收集、模型训练和视频生成三个主要阶段。

关键创新：UCM的关键创新在于时间感知的位置编码扭曲机制。该机制能够有效地将时间信息和相机控制信息融合在一起，从而实现对生成视频内容的精确控制和长期一致性。此外，双流扩散Transformer架构和可扩展的数据管理策略也是重要的创新点。

关键设计：UCM使用扩散模型作为其生成模型，并采用Transformer架构来处理序列数据。时间感知位置编码的具体实现方式未知，但推测是基于时间戳对特征进行编码。损失函数的设计目标是最小化生成视频与真实视频之间的差异，并鼓励长期场景的一致性。双流Transformer的具体结构和参数设置未知。

🖼️ 关键图片

📊 实验亮点

UCM在长期场景一致性方面显著优于现有方法，并在高保真视频生成中实现了精确的相机可控性。在真实世界和合成基准上的实验结果表明，UCM能够生成更逼真、更一致的视频内容。具体的性能数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

UCM具有广泛的应用前景，包括虚拟现实、游戏开发、机器人导航等领域。它可以用于创建更加逼真和可交互的虚拟环境，提升用户体验。在机器人导航方面，UCM可以帮助机器人更好地理解和预测周围环境的变化，从而实现更安全和高效的导航。

📄 摘要（原文）

World models based on video generation demonstrate remarkable potential for simulating interactive environments but face persistent difficulties in two key areas: maintaining long-term content consistency when scenes are revisited and enabling precise camera control from user-provided inputs. Existing methods based on explicit 3D reconstruction often compromise flexibility in unbounded scenarios and fine-grained structures. Alternative methods rely directly on previously generated frames without establishing explicit spatial correspondence, thereby constraining controllability and consistency. To address these limitations, we present UCM, a novel framework that unifies long-term memory and precise camera control via a time-aware positional encoding warping mechanism. To reduce computational overhead, we design an efficient dual-stream diffusion transformer for high-fidelity generation. Moreover, we introduce a scalable data curation strategy utilizing point-cloud-based rendering to simulate scene revisiting, facilitating training on over 500K monocular videos. Extensive experiments on real-world and synthetic benchmarks demonstrate that UCM significantly outperforms state-of-the-art methods in long-term scene consistency, while also achieving precise camera controllability in high-fidelity video generation.

UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理