Stereo World Model: Camera-Guided Stereo Video Generation

📄 arXiv: 2603.17375v1 📥 PDF

作者: Yang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi

分类: cs.CV

发布日期: 2026-03-18

备注: Project Page: https://sunyangtian.github.io/StereoWorld-web/


💡 一句话要点

提出StereoWorld,一种相机引导的立体世界模型,用于端到端立体视频生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 立体视频生成 世界模型 相机条件 旋转位置编码 注意力分解

📋 核心要点

  1. 现有方法难以在RGB模态下同时保证立体视频生成的一致性和几何准确性,依赖深度估计或后处理。
  2. StereoWorld通过相机感知的旋转位置编码和立体感知的注意力分解,在RGB模态下直接学习视差信息。
  3. 实验表明,StereoWorld在立体一致性、视差精度和相机运动保真度方面均优于现有方法,且生成速度更快。

📝 摘要(中文)

本文提出了一种相机条件下的立体世界模型StereoWorld,用于端到端立体视频生成,该模型联合学习外观和双目几何。与单目RGB或RGBD方法不同,StereoWorld完全在RGB模态下运行,同时直接从视差中获取几何信息。为了有效地实现一致的立体生成,该方法引入了两个关键设计:(1) 统一的相机帧RoPE,通过相机感知的旋转位置编码增强潜在tokens,实现相对的、视角和时间一致的条件控制,同时通过稳定的注意力初始化保留预训练的视频先验;(2) 立体感知的注意力分解,将完整的4D注意力分解为3D视图内注意力加上水平行注意力,利用极线先验以更低的计算量捕获视差对齐的对应关系。在基准测试中,StereoWorld在立体一致性、视差精度和相机运动保真度方面优于强大的单目转换流水线,生成速度提高了3倍以上,并且视点一致性提高了5%。此外,StereoWorld无需深度估计或修复即可实现端到端双目VR渲染,通过度量尺度的深度 grounding 增强了具身策略学习,并且兼容长视频蒸馏以进行扩展的交互式立体合成。

🔬 方法详解

问题定义:论文旨在解决立体视频生成中,如何在仅使用RGB信息的情况下,保证生成视频的立体一致性、视差精度以及相机运动的真实性问题。现有方法通常依赖单目图像生成后再进行深度估计或转换,导致误差累积和计算成本高昂。

核心思路:论文的核心思路是构建一个相机条件下的立体世界模型,该模型能够直接从RGB图像中学习视差信息,并利用极线约束来提高立体一致性。通过引入相机感知的旋转位置编码和立体感知的注意力分解,模型能够更好地理解场景的几何结构,从而生成高质量的立体视频。

技术框架:StereoWorld模型主要包含以下几个模块:(1) 视频编码器:将输入视频编码为潜在表示。(2) 相机条件编码器:将相机参数编码为相机感知的旋转位置编码。(3) 立体感知的Transformer解码器:利用相机条件和立体感知的注意力机制,生成立体视频的左右视图。(4) 视频解码器:将潜在表示解码为最终的立体视频。整体流程是,首先将输入视频和相机参数分别编码,然后利用Transformer解码器生成立体视频,最后通过视频解码器输出最终结果。

关键创新:论文的关键创新在于两个方面:(1) 统一的相机帧RoPE:通过相机感知的旋转位置编码,将相机参数融入到潜在tokens中,从而实现视角和时间一致的条件控制。(2) 立体感知的注意力分解:将4D注意力分解为3D视图内注意力和水平行注意力,利用极线先验来捕获视差对齐的对应关系,降低计算复杂度的同时提高了立体一致性。与现有方法的本质区别在于,StereoWorld直接在RGB模态下学习视差信息,避免了深度估计带来的误差累积。

关键设计:相机感知的旋转位置编码(RoPE)的具体实现方式未知,但其目的是为了将相机参数(如位置、旋转)嵌入到Transformer的注意力机制中。立体感知的注意力分解将原本的4D注意力矩阵分解为两个更小的矩阵,从而降低了计算复杂度。损失函数可能包含重建损失、对抗损失以及视差一致性损失等,具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,StereoWorld在立体一致性、视差精度和相机运动保真度方面均优于现有的单目转换流水线。具体而言,StereoWorld的生成速度提高了3倍以上,并且视点一致性提高了5%。这些结果表明,StereoWorld是一种高效且有效的立体视频生成方法。

🎯 应用场景

StereoWorld具有广泛的应用前景,包括:双目VR渲染,无需深度估计或图像修复即可生成高质量的VR内容;具身策略学习,通过度量尺度的深度信息,提高机器人的环境感知能力;交互式立体视频合成,可以生成更具沉浸感的交互式体验。该研究有望推动虚拟现实、机器人和人工智能等领域的发展。

📄 摘要(原文)

We present StereoWorld, a camera-conditioned stereo world model that jointly learns appearance and binocular geometry for end-to-end stereo video generation.Unlike monocular RGB or RGBD approaches, StereoWorld operates exclusively within the RGB modality, while simultaneously grounding geometry directly from disparity. To efficiently achieve consistent stereo generation, our approach introduces two key designs: (1) a unified camera-frame RoPE that augments latent tokens with camera-aware rotary positional encoding, enabling relative, view- and time-consistent conditioning while preserving pretrained video priors via a stable attention initialization; and (2) a stereo-aware attention decomposition that factors full 4D attention into 3D intra-view attention plus horizontal row attention, leveraging the epipolar prior to capture disparity-aligned correspondences with substantially lower compute. Across benchmarks, StereoWorld improves stereo consistency, disparity accuracy, and camera-motion fidelity over strong monocular-then-convert pipelines, achieving more than 3x faster generation with an additional 5% gain in viewpoint consistency. Beyond benchmarks, StereoWorld enables end-to-end binocular VR rendering without depth estimation or inpainting, enhances embodied policy learning through metric-scale depth grounding, and is compatible with long-video distillation for extended interactive stereo synthesis.