Elastic3D: Controllable Stereo Video Conversion with Guided Latent Decoding

📄 arXiv: 2512.14236v1 📥 PDF

作者: Nando Metzger, Prune Truong, Goutam Bhat, Konrad Schindler, Federico Tombari

分类: cs.CV

发布日期: 2025-12-16

备注: Project page: elastic3d.github.io


💡 一句话要点

Elastic3D:基于引导式潜在解码的可控立体视频转换方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 立体视频转换 条件扩散模型 VAE 极线约束 深度学习 三维重建 视频生成

📋 核心要点

  1. 现有单目视频转立体视频方法依赖深度估计和图像扭曲,易产生伪影,影响观看体验。
  2. Elastic3D利用条件潜在扩散模型,结合引导式VAE解码器,直接生成高质量、极线一致的立体视频。
  3. 实验表明,Elastic3D在真实数据集上优于传统和新型基线方法,并提供用户可控的立体效果调节。

📝 摘要(中文)

针对日益增长的沉浸式3D内容需求,本文提出Elastic3D,一种可控的、直接端到端的单目视频到立体视频转换方法。该方法基于(条件)潜在扩散模型,避免了显式深度估计和图像扭曲带来的伪影。其高质量立体视频输出的关键在于一种新颖的、引导式的VAE解码器,确保了清晰且满足极线约束的立体视频输出。此外,该方法允许用户在推理时通过一个直观的标量调节旋钮来控制立体效果的强度(更精确地说是视差范围)。在三个不同的真实世界立体视频数据集上的实验表明,该方法优于传统的基于扭曲的方法和最新的无扭曲基线,为可靠、可控的立体视频转换树立了新标准。

🔬 方法详解

问题定义:论文旨在解决单目视频到立体视频转换的问题。现有方法通常依赖于显式的深度估计,然后通过图像扭曲生成立体视图。这种方法容易受到深度估计误差的影响,导致生成的立体视频中出现伪影,影响观看体验。此外,现有方法通常缺乏对立体效果强度的有效控制。

核心思路:Elastic3D的核心思路是利用条件潜在扩散模型,直接从单目视频生成立体视频,避免了显式深度估计和图像扭曲。通过引入引导式VAE解码器,确保生成的立体视图具有清晰的细节和满足极线约束,从而提高立体视频的质量。此外,该方法允许用户通过调节一个标量参数来控制立体效果的强度。

技术框架:Elastic3D的整体框架包括一个条件潜在扩散模型和一个引导式VAE解码器。首先,单目视频被编码到潜在空间中。然后,条件潜在扩散模型根据用户指定的立体效果强度生成立体视频的潜在表示。最后,引导式VAE解码器将潜在表示解码为最终的立体视频。该解码器通过引入极线约束损失函数来保证立体视图的一致性。

关键创新:Elastic3D的关键创新在于以下几点:1) 提出了一种基于条件潜在扩散模型的直接立体视频生成方法,避免了显式深度估计和图像扭曲;2) 引入了一种引导式VAE解码器,确保生成的立体视图具有清晰的细节和满足极线约束;3) 实现了用户对立体效果强度的可控调节。与现有方法相比,Elastic3D能够生成更高质量、更可控的立体视频。

关键设计:引导式VAE解码器包含一个编码器和一个解码器。编码器将立体视频编码到潜在空间中,解码器将潜在表示解码为立体视频。为了保证立体视图的极线一致性,引入了一个极线约束损失函数,该损失函数惩罚不满足极线约束的像素。此外,为了实现用户对立体效果强度的可控调节,在条件潜在扩散模型中引入了一个标量参数,该参数控制生成的立体视频的视差范围。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

实验结果表明,Elastic3D在三个不同的真实世界立体视频数据集上优于传统的基于扭曲的方法和最新的无扭曲基线。具体来说,Elastic3D在主观视觉质量和客观评价指标(如PSNR和SSIM)上均取得了显著提升。此外,用户研究表明,Elastic3D生成的可控立体视频能够提供更舒适和自然的观看体验。

🎯 应用场景

Elastic3D具有广泛的应用前景,包括:1) 电影和电视制作:将传统2D电影转换为3D版本,提升观看体验;2) 虚拟现实和增强现实:生成高质量的立体视频内容,增强沉浸感;3) 游戏开发:创建更逼真的3D游戏场景。该研究有望推动3D内容创作的自动化和普及,为用户带来更丰富的视觉体验。

📄 摘要(原文)

The growing demand for immersive 3D content calls for automated monocular-to-stereo video conversion. We present Elastic3D, a controllable, direct end-to-end method for upgrading a conventional video to a binocular one. Our approach, based on (conditional) latent diffusion, avoids artifacts due to explicit depth estimation and warping. The key to its high-quality stereo video output is a novel, guided VAE decoder that ensures sharp and epipolar-consistent stereo video output. Moreover, our method gives the user control over the strength of the stereo effect (more precisely, the disparity range) at inference time, via an intuitive, scalar tuning knob. Experiments on three different datasets of real-world stereo videos show that our method outperforms both traditional warping-based and recent warping-free baselines and sets a new standard for reliable, controllable stereo video conversion. Please check the project page for the video samples https://elastic3d.github.io.