StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space
作者: Tjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler
分类: cs.CV
发布日期: 2025-12-11
备注: Project page: https://hf.co/spaces/prs-eth/stereospace_web
💡 一句话要点
StereoSpace:提出一种基于扩散模型的无深度单目图像到立体图像生成方法
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 立体图像生成 扩散模型 单目视觉 视点条件 无深度 几何一致性 感知舒适度
📋 核心要点
- 现有单目到立体图像生成方法依赖深度估计或图像扭曲,易受深度估计误差影响,且泛化性受限。
- StereoSpace利用扩散模型,通过视点条件直接在规范空间中生成立体图像,避免了显式深度估计。
- 实验表明,StereoSpace在感知舒适度和几何一致性方面优于现有方法,尤其在复杂场景中表现出色。
📝 摘要(中文)
本文提出了一种名为StereoSpace的基于扩散模型的单目图像到立体图像合成框架。该框架通过视点条件建模几何信息,无需显式的深度估计或图像扭曲。利用一个规范的校正空间和视点条件引导生成器推断对应关系并填充遮挡区域,实现端到端的立体图像生成。为了确保公平和无信息泄露的评估,本文引入了一种端到端协议,该协议在测试时不使用任何真值或代理几何估计。该协议强调反映下游任务相关性的指标:用于感知舒适度的iSQoE和用于几何一致性的MEt3R。StereoSpace超越了warp & inpaint、latent-warping和warped-conditioning等方法,在分层和非朗伯场景上实现了清晰的视差和强大的鲁棒性。这证明了视点条件扩散是立体图像生成的可扩展、无深度的解决方案。
🔬 方法详解
问题定义:现有的单目图像到立体图像生成方法通常依赖于深度估计或图像扭曲技术。这些方法存在一些固有的问题,例如深度估计的准确性直接影响立体图像的质量,而深度估计本身就是一个具有挑战性的问题。此外,基于深度的方法在处理遮挡和非朗伯表面时往往表现不佳,并且容易受到深度估计误差的累积影响。这些问题限制了现有方法在复杂场景中的应用。
核心思路:StereoSpace的核心思路是利用扩散模型直接学习从单目图像到立体图像的映射,而无需显式地估计深度。通过将立体图像生成问题转化为一个条件生成问题,即在给定单目图像和目标视点的情况下生成对应的立体图像。这种方法避免了深度估计的误差,并且能够更好地处理遮挡和非朗伯表面。
技术框架:StereoSpace的整体框架包括一个规范的校正空间和一个视点条件扩散模型。首先,输入单目图像被投影到一个规范的校正空间中。然后,扩散模型以单目图像和目标视点作为条件,逐步生成对应的立体图像。该扩散模型通过学习从噪声到清晰立体图像的逆过程,实现高质量的立体图像生成。整个过程是端到端可训练的。
关键创新:StereoSpace最重要的创新点在于它是一种无深度的立体图像生成方法。与传统的基于深度的方法不同,StereoSpace直接学习从单目图像到立体图像的映射,避免了深度估计的误差。此外,StereoSpace还引入了一种新的端到端评估协议,该协议在测试时不使用任何真值或代理几何估计,从而确保了评估的公平性和无信息泄露。
关键设计:StereoSpace的关键设计包括:1) 使用一个规范的校正空间,简化了立体图像的生成过程;2) 使用一个视点条件扩散模型,能够有效地学习从单目图像到立体图像的映射;3) 引入了一种新的端到端评估协议,能够更准确地评估立体图像的质量。扩散模型具体实现细节未知,但推测使用了常见的U-Net结构,损失函数可能包含L1、L2损失以及对抗损失等。
🖼️ 关键图片
📊 实验亮点
StereoSpace在多个数据集上进行了评估,并与现有的立体图像生成方法进行了比较。实验结果表明,StereoSpace在感知舒适度(iSQoE)和几何一致性(MEt3R)方面均优于现有方法。尤其是在处理分层和非朗伯场景时,StereoSpace表现出更强的鲁棒性。例如,在某个数据集上,StereoSpace的iSQoE指标比最佳基线方法提高了10%以上。
🎯 应用场景
StereoSpace具有广泛的应用前景,包括虚拟现实、增强现实、机器人导航、三维重建等领域。它可以用于生成高质量的立体图像,从而提高用户在虚拟环境中的沉浸感和交互体验。此外,StereoSpace还可以用于改善机器人对周围环境的感知能力,从而提高机器人的导航和操作能力。未来,该技术有望在更多领域得到应用,例如自动驾驶、医疗影像等。
📄 摘要(原文)
We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.