Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors

📄 arXiv: 2604.12309v1 📥 PDF

作者: Rong Wang, Ruyi Zha, Ziang Cheng, Jiayu Yang, Pulak Purkait, Hongdong Li

分类: cs.CV

发布日期: 2026-04-14

备注: Accepted to CVPR 2026


💡 一句话要点

利用3D基础先验,实现逼真且一致的物体轨道视频生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 轨道视频生成 3D基础模型 形状先验 多视角一致性 视频生成 几何建模 多尺度适配器

📋 核心要点

  1. 现有方法在长程外推的轨道视频生成中,由于像素对应关系有限,难以保证生成结果的结构合理性和一致性。
  2. 利用3D基础生成模型的形状先验知识,通过全局潜在向量和视图相关的潜在图像,为视频生成提供结构和几何细节指导。
  3. 引入多尺度3D适配器,将3D特征注入到视频模型中,在保留预训练能力的同时,实现简单有效的微调,提升生成质量。

📝 摘要(中文)

本文提出了一种新颖的方法,用于从物体的单张图像生成几何上逼真且一致的轨道视频。现有的视频生成工作主要依赖于像素级的注意力机制来强制帧间的视图一致性。然而,这种机制对于远距离外推(例如,后视图合成)的约束不足,在后视图合成中,与输入图像的像素对应关系有限。因此,这些工作通常无法生成具有合理且连贯结构的结果。为了解决这个问题,我们提出利用来自3D基础生成模型的丰富形状先验作为辅助约束,这是受到其建模从大型3D资产语料库中学习到的真实物体形状分布的能力的启发。具体来说,我们使用由3D基础模型编码的两个尺度的潜在特征来提示视频生成:(i)一个去噪的全局潜在向量作为整体结构指导,以及(ii)一组从体素特征投影的潜在图像,以提供与视图相关的细粒度几何细节。与常用的2.5D表示(如深度图或法线贴图)相比,这些紧凑的特征可以建模完整的物体形状,并通过避免显式网格提取来帮助提高推理效率。为了实现有效的形状条件化,我们引入了一个多尺度3D适配器,通过交叉注意力将特征token注入到基础视频模型中,这保留了其来自通用视频预训练的能力,并实现了简单且模型无关的微调过程。在多个基准上的大量实验表明,与最先进的方法相比,我们的方法实现了卓越的视觉质量、形状真实感和多视图一致性,并且能够稳健地推广到复杂的相机轨迹和真实图像。

🔬 方法详解

问题定义:论文旨在解决从单张图像生成物体轨道视频时,现有方法在长距离视角变换下,难以保持生成视频几何结构真实性和多视角一致性的问题。现有方法依赖像素级注意力,对远距离外推约束不足,导致结构不合理和视角不连贯。

核心思路:核心思路是利用3D基础生成模型学习到的丰富形状先验知识,为视频生成过程提供额外的结构和几何约束。通过将3D形状信息融入视频生成模型,可以有效提升生成视频的真实感和视角一致性。

技术框架:整体框架包含以下几个主要模块:1) 3D基础生成模型:用于提取物体的全局结构和局部几何特征。2) 视频生成模型:作为基础的视频生成框架,负责生成视频帧序列。3) 多尺度3D适配器:将3D基础模型提取的特征注入到视频生成模型中,实现形状条件化。流程上,首先使用3D基础模型编码输入图像,得到全局潜在向量和潜在图像。然后,通过多尺度3D适配器将这些特征注入到视频生成模型中,最后生成轨道视频。

关键创新:关键创新在于利用3D基础模型提供的形状先验知识,并设计了多尺度3D适配器来实现有效的形状条件化。与现有方法相比,该方法避免了直接使用2.5D表示(如深度图),而是使用紧凑的潜在特征来建模完整的物体形状,提高了推理效率。

关键设计:多尺度3D适配器通过交叉注意力机制将3D特征注入到视频生成模型中。具体来说,适配器在多个尺度上提取3D特征,并将这些特征作为query,与视频生成模型的特征进行交叉注意力计算。损失函数方面,除了常用的视频生成损失外,可能还包括一些正则化项,以鼓励生成的视频与3D形状先验保持一致。具体参数设置和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在多个基准数据集上进行了实验,结果表明,与现有最先进的方法相比,该方法在视觉质量、形状真实感和多视图一致性方面均取得了显著提升。具体性能数据和提升幅度在论文实验部分应该有详细展示(未知)。该方法还展现了对复杂相机轨迹和真实图像的鲁棒泛化能力。

🎯 应用场景

该研究成果可应用于三维内容创作、虚拟现实/增强现实、游戏开发等领域。例如,用户只需提供一张产品图片,即可自动生成360度展示视频,方便产品宣传和展示。此外,该技术还可用于生成虚拟场景中的动态物体,提升虚拟环境的真实感和交互性。

📄 摘要(原文)

We present a novel method for generating geometrically realistic and consistent orbital videos from a single image of an object. Existing video generation works mostly rely on pixel-wise attention to enforce view consistency across frames. However, such mechanism does not impose sufficient constraints for long-range extrapolation, e.g. rear-view synthesis, in which pixel correspondences to the input image are limited. Consequently, these works often fail to produce results with a plausible and coherent structure. To tackle this issue, we propose to leverage rich shape priors from a 3D foundational generative model as an auxiliary constraint, motivated by its capability of modeling realistic object shape distributions learned from large 3D asset corpora. Specifically, we prompt the video generation with two scales of latent features encoded by the 3D foundation model: (i) a denoised global latent vector as an overall structural guidance, and (ii) a set of latent images projected from volumetric features to provide view-dependent and fine-grained geometry details. In contrast to commonly used 2.5D representations such as depth or normal maps, these compact features can model complete object shapes, and help to improve inference efficiency by avoiding explicit mesh extraction. To achieve effective shape conditioning, we introduce a multi-scale 3D adapter to inject feature tokens to the base video model via cross-attention, which retains its capabilities from general video pretraining and enables a simple and model-agonistic fine-tuning process. Extensive experiments on multiple benchmarks show that our method achieves superior visual quality, shape realism and multi-view consistency compared to state-of-the-art methods, and robustly generalizes to complex camera trajectories and in-the-wild images.