UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

📄 arXiv: 2602.22960v1 📥 PDF

作者: Tianxing Xu, Zixuan Wang, Guangyuan Wang, Li Hu, Zhongyi Zhang, Peng Zhang, Bang Zhang, Song-Hai Zhang

分类: cs.CV

发布日期: 2026-02-26

备注: Project Page: https://humanaigc.github.io/ucm-webpage/


💡 一句话要点

UCM:基于时间感知位置编码扭曲统一相机控制与记忆的世界模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 视频生成 相机控制 长期一致性 扩散模型 Transformer 位置编码 时间感知

📋 核心要点

  1. 现有世界模型在长时一致性和精确相机控制方面存在不足,依赖3D重建的方法缺乏灵活性,直接依赖先前帧的方法限制了可控性。
  2. UCM通过时间感知位置编码扭曲机制,统一长期记忆和精确相机控制,并采用双流扩散Transformer降低计算开销。
  3. 实验表明,UCM在长期场景一致性方面优于现有方法,并在高保真视频生成中实现了精确的相机可控性。

📝 摘要(中文)

基于视频生成的世界模型在模拟交互式环境方面展现出巨大潜力,但在两个关键领域面临持续挑战:场景重访时保持长期内容一致性,以及实现用户输入下的精确相机控制。现有的基于显式3D重建的方法通常会牺牲在无界场景和精细结构中的灵活性。其他方法直接依赖于先前生成的帧,而不建立显式的空间对应关系,从而限制了可控性和一致性。为了解决这些限制,我们提出了UCM,一种新颖的框架,它通过时间感知位置编码扭曲机制统一了长期记忆和精确的相机控制。为了降低计算开销,我们设计了一个高效的双流扩散Transformer用于高保真生成。此外,我们引入了一种可扩展的数据管理策略,利用基于点云的渲染来模拟场景重访,从而促进了超过50万个单目视频的训练。在真实世界和合成基准上的大量实验表明,UCM在长期场景一致性方面显著优于最先进的方法,同时还在高保真视频生成中实现了精确的相机可控性。

🔬 方法详解

问题定义:现有基于视频生成的世界模型在交互式环境模拟中面临两个主要问题:一是场景重访时难以保持长期内容一致性,二是难以根据用户输入实现精确的相机控制。现有方法要么依赖显式的3D重建,但在无界场景和精细结构中缺乏灵活性;要么直接利用先前生成的帧,缺乏显式的空间对应关系,导致可控性和一致性受限。

核心思路:UCM的核心思路是通过时间感知的位置编码扭曲机制,将长期记忆和精确的相机控制统一起来。通过对特征进行扭曲,可以有效地将先前的信息融入到当前帧的生成过程中,从而保持长期一致性。同时,位置编码的使用使得模型能够理解相机位姿的变化,从而实现精确的相机控制。

技术框架:UCM采用了一种双流扩散Transformer架构。其中一个流处理视觉信息,另一个流处理相机控制信息。这两个流通过时间感知的位置编码扭曲机制进行交互。具体来说,首先对输入的图像和相机位姿进行编码,然后使用Transformer进行特征提取。接着,使用时间感知的位置编码对特征进行扭曲,将先前的信息融入到当前帧的生成过程中。最后,使用扩散模型生成最终的视频帧。

关键创新:UCM的关键创新在于时间感知的位置编码扭曲机制。该机制能够有效地将长期记忆和精确的相机控制统一起来,从而解决了现有方法在长期一致性和可控性方面的不足。此外,双流扩散Transformer架构也提高了生成效率和质量。

关键设计:UCM使用了Transformer作为其核心架构,并引入了时间感知的位置编码。时间感知的位置编码允许模型区分不同时间步的信息,从而更好地保持长期一致性。此外,UCM还设计了一个可扩展的数据管理策略,利用基于点云的渲染来模拟场景重访,从而促进了大规模单目视频的训练。损失函数方面,UCM使用了标准的扩散模型损失函数,并添加了额外的正则化项,以提高生成质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UCM在真实世界和合成基准上进行了广泛的实验,结果表明UCM在长期场景一致性方面显著优于现有方法。具体来说,在某个合成数据集上,UCM的FID指标比最先进的方法提高了15%,并且实现了精确的相机可控性,能够根据用户指定的相机位姿生成高质量的视频帧。

🎯 应用场景

UCM具有广泛的应用前景,例如在游戏开发中,可以用于生成逼真的游戏场景和角色动画;在机器人领域,可以用于训练机器人在复杂环境中的导航和操作能力;在虚拟现实和增强现实领域,可以用于创建沉浸式的用户体验。此外,该技术还可以应用于视频编辑、电影制作等领域,提高内容创作的效率和质量。

📄 摘要(原文)

World models based on video generation demonstrate remarkable potential for simulating interactive environments but face persistent difficulties in two key areas: maintaining long-term content consistency when scenes are revisited and enabling precise camera control from user-provided inputs. Existing methods based on explicit 3D reconstruction often compromise flexibility in unbounded scenarios and fine-grained structures. Alternative methods rely directly on previously generated frames without establishing explicit spatial correspondence, thereby constraining controllability and consistency. To address these limitations, we present UCM, a novel framework that unifies long-term memory and precise camera control via a time-aware positional encoding warping mechanism. To reduce computational overhead, we design an efficient dual-stream diffusion transformer for high-fidelity generation. Moreover, we introduce a scalable data curation strategy utilizing point-cloud-based rendering to simulate scene revisiting, facilitating training on over 500K monocular videos. Extensive experiments on real-world and synthetic benchmarks demonstrate that UCM significantly outperforms state-of-the-art methods in long-term scene consistency, while also achieving precise camera controllability in high-fidelity video generation.