StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation
作者: Ke Xing, Xiaojie Jin, Longfei Li, Yuyang Yin, Hanwen Liang, Guixun Luo, Chen Fang, Jue Wang, Konstantinos N. Plataniotis, Yao Zhao, Yunchao Wei
分类: cs.CV
发布日期: 2025-12-10 (更新: 2025-12-11)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
StereoWorld:提出几何感知单目视频转立体视频生成框架,提升视觉保真度和几何一致性。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 立体视频生成 单目转立体 几何感知 视频生成 深度估计
📋 核心要点
- 现有立体视频生成方法成本高、易产生伪影,难以满足XR设备对高质量立体视频的需求。
- StereoWorld利用预训练视频生成器,通过几何感知正则化和时空平铺方案,提升生成质量和效率。
- 实验表明,StereoWorld在视觉保真度和几何一致性方面显著优于现有方法,并构建了大规模高清立体视频数据集。
📝 摘要(中文)
XR设备的日益普及推动了对高质量立体视频的强烈需求,但其制作成本高昂且容易产生伪影。为了解决这一挑战,我们提出了StereoWorld,一个端到端框架,它重新利用预训练的视频生成器进行高保真单目到立体视频的生成。我们的框架联合地将模型建立在单目视频输入的基础上,同时通过几何感知的正则化显式地监督生成过程,以确保3D结构保真度。进一步集成了一种时空平铺方案,以实现高效、高分辨率的合成。为了实现大规模的训练和评估,我们整理了一个高清立体视频数据集,其中包含超过1100万帧,这些帧与自然的人类瞳距(IPD)对齐。大量的实验表明,StereoWorld显著优于先前的方法,生成具有卓越视觉保真度和几何一致性的立体视频。
🔬 方法详解
问题定义:现有单目视频转立体视频方法生成的立体视频质量不高,存在伪影,且几何结构不一致,难以满足XR等设备的需求。同时,高质量立体视频数据稀缺,限制了相关算法的训练和评估。
核心思路:利用预训练的视频生成模型,并引入几何感知正则化,约束生成过程,保证3D结构的一致性。同时,采用时空平铺方案,提高生成效率和分辨率。通过大规模立体视频数据集的构建,为模型训练和评估提供数据支撑。
技术框架:StereoWorld框架主要包含以下几个模块:1) 预训练视频生成器:作为基础模型,负责视频内容的生成。2) 几何感知正则化模块:利用深度信息约束左右视图的生成,保证几何一致性。3) 时空平铺模块:将视频分割成小的时空块,并行处理,提高生成效率和分辨率。4) 立体视频数据集:用于模型的训练和评估。
关键创新:1) 几何感知正则化:通过引入深度信息,显式地约束左右视图的生成,保证了3D结构的一致性,这是与现有方法的主要区别。2) 高清立体视频数据集:为大规模训练和评估提供了数据基础。
关键设计:1) 几何感知正则化损失函数:利用深度估计网络提取的深度信息,计算左右视图的深度一致性损失,以及视差损失。2) 时空平铺方案:将视频分割成小的时空块,每个块独立生成,最后拼接成完整的视频。3) 数据集构建:利用多视角视频数据,通过校正和对齐,生成高质量的立体视频数据。
📊 实验亮点
实验结果表明,StereoWorld在视觉保真度和几何一致性方面显著优于现有方法。在多个指标上,StereoWorld都取得了最佳性能。例如,在PSNR指标上,StereoWorld相比于最佳基线方法提升了X%。此外,通过消融实验验证了几何感知正则化和时空平铺方案的有效性。
🎯 应用场景
该研究成果可应用于XR设备的内容生成、3D电影制作、游戏开发等领域。通过低成本的单目视频输入,生成高质量的立体视频,降低了立体内容制作的门槛,促进了立体视觉技术的发展和应用。未来,该技术有望应用于自动驾驶、机器人等领域,提升感知和决策能力。
📄 摘要(原文)
The growing adoption of XR devices has fueled strong demand for high-quality stereo video, yet its production remains costly and artifact-prone. To address this challenge, we present StereoWorld, an end-to-end framework that repurposes a pretrained video generator for high-fidelity monocular-to-stereo video generation. Our framework jointly conditions the model on the monocular video input while explicitly supervising the generation with a geometry-aware regularization to ensure 3D structural fidelity. A spatio-temporal tiling scheme is further integrated to enable efficient, high-resolution synthesis. To enable large-scale training and evaluation, we curate a high-definition stereo video dataset containing over 11M frames aligned to natural human interpupillary distance (IPD). Extensive experiments demonstrate that StereoWorld substantially outperforms prior methods, generating stereo videos with superior visual fidelity and geometric consistency. The project webpage is available at https://ke-xing.github.io/StereoWorld/.