Plenoptic Video Generation

📄 arXiv: 2601.05239v1 📥 PDF

作者: Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu, Ming-Yu Liu, Dahua Lin, Chen-Hsuan Lin

分类: cs.CV

发布日期: 2026-01-08

备注: Project Page: https://research.nvidia.com/labs/dir/plenopticdreamer/


💡 一句话要点

PlenopticDreamer:提出一种保持时空一致性的多视角视频生成框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频生成 多视角一致性 相机控制 自回归模型 视频重渲染

📋 核心要点

  1. 现有相机控制的视频生成方法难以在多视角场景中保持一致性,尤其是在生成区域的时空连贯性方面面临挑战。
  2. PlenopticDreamer通过同步生成幻觉来保持时空记忆,利用自回归训练和相机引导的视频检索策略。
  3. 实验表明,PlenopticDreamer在视频重渲染方面达到了最先进水平,实现了更好的视图同步和视觉保真度。

📝 摘要(中文)

本文提出PlenopticDreamer,一个同步生成幻觉以保持时空记忆的框架,旨在解决相机控制的生成视频重渲染方法在多视角场景中难以保持一致性的问题。该方法训练一个多输入单输出的视频条件模型,以自回归的方式进行,并采用相机引导的视频检索策略,自适应地从先前的生成结果中选择显著的视频作为条件输入。此外,训练过程还结合了渐进式上下文缩放以改善收敛性,自条件反射以增强对由误差累积引起的远程视觉退化的鲁棒性,以及长视频条件机制以支持扩展的视频生成。在Basic和Agibot基准测试上的大量实验表明,PlenopticDreamer实现了最先进的视频重渲染效果,提供了卓越的视图同步、高保真视觉效果、精确的相机控制和多样化的视图转换(例如,第三人称到第三人称,以及机器人操作中的头部视图到夹具视图)。

🔬 方法详解

问题定义:现有基于相机控制的视频生成方法,如ReCamMaster,在单视角下表现出色,但在多视角场景中难以保持一致性。由于生成模型的随机性,幻觉区域的时空连贯性难以保证,这限制了其在需要多视角一致性的应用中的使用。

核心思路:PlenopticDreamer的核心思路是训练一个多输入单输出的视频条件模型,通过自回归的方式生成视频,并利用相机信息引导的视频检索策略,从之前的生成结果中选择相关的视频作为条件输入。这样可以有效地利用时空信息,保证生成视频在多视角下的一致性。

技术框架:PlenopticDreamer的整体框架包含以下几个主要模块:1) 多输入单输出的视频生成模型,负责根据条件视频生成新的视频帧;2) 相机引导的视频检索模块,根据相机参数从历史生成结果中检索相关的视频片段;3) 自回归生成模块,将生成的视频帧作为下一步生成的条件输入,实现长时序的视频生成。此外,还包括渐进式上下文缩放、自条件反射和长视频条件机制等辅助模块。

关键创新:PlenopticDreamer的关键创新在于其多视角一致性生成方法。通过相机引导的视频检索和自回归生成,有效地利用了时空信息,保证了生成视频在不同视角下的一致性。此外,渐进式上下文缩放和自条件反射等技术进一步提高了生成模型的稳定性和鲁棒性。

关键设计:在训练过程中,采用了渐进式上下文缩放,逐步增加输入视频的长度,以提高模型的收敛速度。自条件反射机制则通过将之前的生成结果作为条件输入,增强了模型对长期视觉退化的鲁棒性。长视频条件机制则允许模型生成更长的视频序列。损失函数方面,可能采用了对抗损失、感知损失等,以提高生成视频的质量和真实感(具体损失函数细节未知)。网络结构方面,可能采用了Transformer或卷积神经网络等(具体网络结构细节未知)。

📊 实验亮点

PlenopticDreamer在Basic和Agibot基准测试上取得了最先进的视频重渲染效果。实验结果表明,该方法能够生成具有卓越视图同步、高保真视觉效果和精确相机控制的视频。此外,该方法还支持多样化的视图转换,例如第三人称到第三人称,以及机器人操作中的头部视图到夹具视图。具体的性能指标和提升幅度在论文中进行了详细的量化分析(具体数值未知)。

🎯 应用场景

PlenopticDreamer具有广泛的应用前景,例如:虚拟现实/增强现实内容生成、机器人操作的视觉引导、自动驾驶的场景模拟、电影特效制作等。该技术可以生成具有多视角一致性的高质量视频,为用户提供更沉浸式的体验,并为机器人和自动驾驶系统提供更真实的训练数据。未来,该技术有望进一步扩展到更复杂的场景和任务中。

📄 摘要(原文)

Camera-controlled generative video re-rendering methods, such as ReCamMaster, have achieved remarkable progress. However, despite their success in single-view setting, these works often struggle to maintain consistency across multi-view scenarios. Ensuring spatio-temporal coherence in hallucinated regions remains challenging due to the inherent stochasticity of generative models. To address it, we introduce PlenopticDreamer, a framework that synchronizes generative hallucinations to maintain spatio-temporal memory. The core idea is to train a multi-in-single-out video-conditioned model in an autoregressive manner, aided by a camera-guided video retrieval strategy that adaptively selects salient videos from previous generations as conditional inputs. In addition, Our training incorporates progressive context-scaling to improve convergence, self-conditioning to enhance robustness against long-range visual degradation caused by error accumulation, and a long-video conditioning mechanism to support extended video generation. Extensive experiments on the Basic and Agibot benchmarks demonstrate that PlenopticDreamer achieves state-of-the-art video re-rendering, delivering superior view synchronization, high-fidelity visuals, accurate camera control, and diverse view transformations (e.g., third-person to third-person, and head-view to gripper-view in robotic manipulation). Project page: https://research.nvidia.com/labs/dir/plenopticdreamer/