StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

📄 arXiv: 2409.07447v1 📥 PDF

作者: Sijie Zhao, Wenbo Hu, Xiaodong Cun, Yong Zhang, Xiaoyu Li, Zhe Kong, Xiangjun Gao, Muyao Niu, Ying Shan

分类: cs.CV, cs.GR

发布日期: 2024-09-11

备注: 11 pages, 10 figures


💡 一句话要点

StereoCrafter:提出一种基于扩散模型的单目视频生成高质量立体3D视频方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 立体3D视频生成 单目视频转换 扩散模型 视频修复 深度估计

📋 核心要点

  1. 现有2D到3D视频转换方法在生成高保真立体内容方面存在局限性,难以满足新型3D显示设备的需求。
  2. StereoCrafter利用预训练的stable video diffusion模型,结合深度信息和视频修复技术,生成高质量立体3D视频。
  3. 该框架通过自回归策略和分块处理,有效处理了不同长度和分辨率的视频,并构建了大规模高质量数据集进行训练。

📝 摘要(中文)

本文提出了一种新颖的框架,用于将2D视频转换为沉浸式立体3D视频,以满足对3D内容日益增长的需求。该方法利用基础模型作为先验知识,克服了传统方法的局限性,并提高了性能,从而确保了显示设备所需的高保真度生成效果。所提出的系统包括两个主要步骤:基于深度的视频splatting用于扭曲和提取遮挡掩模,以及立体视频修复。我们利用预训练的stable video diffusion作为骨干网络,并引入了一种针对立体视频修复任务的微调协议。为了处理具有不同长度和分辨率的输入视频,我们探索了自回归策略和分块处理。最后,我们开发了一个复杂的数据处理流程,以重建大规模和高质量的数据集来支持我们的训练。我们的框架在2D到3D视频转换方面表现出显著的改进,为Apple Vision Pro和3D显示器等3D设备创建沉浸式内容提供了一种实用的解决方案。总而言之,这项工作通过提出一种从单目输入生成高质量立体视频的有效方法,为该领域做出了贡献,有可能改变我们体验数字媒体的方式。

🔬 方法详解

问题定义:现有2D到3D视频转换方法难以生成高质量、长时序一致的立体3D视频,尤其是在遮挡区域的处理上存在困难。传统方法依赖于手工设计的特征或几何约束,泛化能力和生成质量受限。

核心思路:利用预训练的stable video diffusion模型强大的生成能力,结合深度信息作为先验,引导立体视频的生成。通过深度信息进行视频splatting,提取遮挡掩模,并使用视频修复技术填充遮挡区域,从而生成高质量的立体视频。

技术框架:该框架主要包含两个阶段:1) 基于深度的视频splatting:利用深度信息将单目视频扭曲成初始的立体视图,并提取遮挡掩模。2) 立体视频修复:使用stable video diffusion模型,结合遮挡掩模和初始立体视图,进行视频修复,生成最终的立体3D视频。为了处理长视频和高分辨率视频,采用了自回归策略和分块处理。

关键创新:该方法将预训练的stable video diffusion模型应用于立体视频生成任务,并设计了针对立体视频特点的微调策略。通过深度信息引导和遮挡掩模约束,提高了生成立体视频的质量和一致性。此外,自回归策略和分块处理有效解决了长视频和高分辨率视频的处理问题。

关键设计:使用了预训练的stable video diffusion模型作为骨干网络,并针对立体视频修复任务进行了微调。在视频splatting阶段,使用了高质量的深度估计模型。在视频修复阶段,使用了遮挡掩模作为条件输入,引导模型填充遮挡区域。为了保证长时序一致性,使用了自回归策略,逐步生成视频帧。为了处理高分辨率视频,使用了分块处理,将视频分割成小块进行处理,最后再拼接起来。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该框架在2D到3D视频转换方面表现出显著的改进,能够生成高质量、长时序一致的立体3D视频。通过与现有方法的对比实验表明,该方法在主观视觉质量和客观评价指标上均优于现有方法。具体性能数据未知,但摘要强调了其在生成高保真立体视频方面的显著提升。

🎯 应用场景

该研究成果可广泛应用于3D电影制作、虚拟现实、增强现实、游戏开发等领域。尤其是在Apple Vision Pro等新型3D显示设备上,可以提供更加沉浸式的观看体验。该技术有望降低3D内容制作的成本和门槛,促进3D内容的普及。

📄 摘要(原文)

This paper presents a novel framework for converting 2D videos to immersive stereoscopic 3D, addressing the growing demand for 3D content in immersive experience. Leveraging foundation models as priors, our approach overcomes the limitations of traditional methods and boosts the performance to ensure the high-fidelity generation required by the display devices. The proposed system consists of two main steps: depth-based video splatting for warping and extracting occlusion mask, and stereo video inpainting. We utilize pre-trained stable video diffusion as the backbone and introduce a fine-tuning protocol for the stereo video inpainting task. To handle input video with varying lengths and resolutions, we explore auto-regressive strategies and tiled processing. Finally, a sophisticated data processing pipeline has been developed to reconstruct a large-scale and high-quality dataset to support our training. Our framework demonstrates significant improvements in 2D-to-3D video conversion, offering a practical solution for creating immersive content for 3D devices like Apple Vision Pro and 3D displays. In summary, this work contributes to the field by presenting an effective method for generating high-quality stereoscopic videos from monocular input, potentially transforming how we experience digital media.