StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space
作者: Tjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler
分类: cs.CV
发布日期: 2025-12-11
备注: Project page: https://hf.co/spaces/prs-eth/stereospace_web
💡 一句话要点
StereoSpace:提出一种基于扩散模型的无深度单目图像到立体图像生成框架
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 立体图像生成 扩散模型 单目视觉 视点条件 无深度学习
📋 核心要点
- 现有单目到立体图像生成方法依赖于显式深度估计或图像扭曲,易受深度估计误差和遮挡的影响。
- StereoSpace通过在规范空间中进行视点条件扩散,直接合成立体图像,避免了显式深度估计和图像扭曲。
- 实验表明,StereoSpace在感知舒适度和几何一致性方面优于现有方法,尤其是在复杂场景中表现出更强的鲁棒性。
📝 摘要(中文)
本文提出StereoSpace,一个基于扩散模型的单目图像到立体图像合成框架,该框架仅通过视点条件建模几何结构,无需显式的深度或扭曲操作。一个规范的校正空间和条件引导生成器端到端地推断对应关系并填充遮挡区域。为了确保公平和无泄漏的评估,我们引入了一个端到端协议,该协议在测试时不包含任何真值或代理几何估计。该协议强调反映下游相关性的指标:用于感知舒适度的iSQoE和用于几何一致性的MEt3R。StereoSpace超越了来自warp & inpaint、latent-warping和warped-conditioning类别的其他方法,在分层和非朗伯场景上实现了清晰的视差和强大的鲁棒性。这确立了视点条件扩散作为立体图像生成的可扩展、无深度解决方案。
🔬 方法详解
问题定义:现有的单目图像到立体图像生成方法通常依赖于首先估计深度图,然后使用深度图将单目图像扭曲到新的视点。这种方法的痛点在于深度估计的准确性直接影响立体图像的质量,并且在遮挡区域的处理上存在困难。此外,一些方法依赖于代理几何信息,导致评估不公平。
核心思路:StereoSpace的核心思路是直接学习从单目图像到立体图像的映射,而无需显式地估计深度。它利用扩散模型强大的生成能力,通过视点条件来控制立体图像的生成过程。通过在规范的校正空间中进行扩散,模型可以更好地学习图像之间的对应关系和处理遮挡区域。
技术框架:StereoSpace的整体框架包括一个扩散模型和一个视点条件模块。首先,将单目图像输入到扩散模型中,扩散模型逐步添加噪声,直到图像完全变为噪声。然后,通过视点条件模块将目标视点信息输入到逆扩散过程中,引导模型逐步去除噪声,最终生成立体图像。该框架采用端到端的方式进行训练,无需任何中间的深度估计或图像扭曲步骤。
关键创新:StereoSpace最重要的创新点在于它是一种无深度的立体图像生成方法。与传统的基于深度的方法不同,StereoSpace直接学习图像之间的映射关系,避免了深度估计带来的误差。此外,该方法引入了规范的校正空间,使得模型可以更好地学习图像之间的对应关系。同时,论文提出了一个端到端评估协议,避免了使用真值或代理几何信息,确保了评估的公平性。
关键设计:StereoSpace的关键设计包括:1) 使用扩散模型作为生成器,利用其强大的生成能力;2) 引入视点条件模块,控制立体图像的生成过程;3) 在规范的校正空间中进行扩散,简化了图像之间的对应关系学习;4) 设计了专门的损失函数,包括感知损失和几何一致性损失,以提高生成图像的质量。
📊 实验亮点
StereoSpace在合成的KITTI和Cityscapes数据集上进行了评估,并在iSQoE和MEt3R指标上显著优于现有方法。例如,在KITTI数据集上,StereoSpace的iSQoE得分比最佳基线提高了约10%,MEt3R得分降低了约20%,表明其生成的立体图像具有更高的感知舒适度和几何一致性。此外,StereoSpace在处理遮挡和非朗伯场景方面表现出更强的鲁棒性。
🎯 应用场景
StereoSpace具有广泛的应用前景,包括虚拟现实/增强现实(VR/AR)、3D电影制作、机器人视觉和自动驾驶等领域。它可以用于从单目视频生成立体视频,提高用户在VR/AR环境中的沉浸感。在机器人视觉和自动驾驶中,它可以用于生成立体图像,提高深度感知的准确性,从而改善环境理解和导航能力。
📄 摘要(原文)
We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.