PanoWorld: Geometry-Consistent Panoramic Video World Modeling

📄 arXiv: 2605.15391v1 📥 PDF

作者: Le Jiang, Xiangyu Bai, Bishoy Galoaa, Shayda Moezzi, Caleb James Lee, Tooba Imtiaz, Edmund Yeh, Jennifer Dy, Yanzhi Wang, Sarah Ostadabbas

分类: cs.CV, cs.AI

发布日期: 2026-05-14

🔗 代码/项目: GITHUB


💡 一句话要点

PanoWorld:提出几何一致的全景视频世界建模方法,从单张图像和文本生成逼真全景视频。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全景视频生成 世界模型 几何一致性 深度估计 轨迹预测 具身智能 360度视频

📋 核心要点

  1. 现有全景视频生成方法缺乏对底层3D场景几何一致性的约束,导致生成视频存在深度不一致和运动不合理等问题。
  2. PanoWorld将全景视频生成视为几何和动态一致的潜在状态建模问题,通过引入深度和轨迹一致性损失来约束生成过程。
  3. PanoWorld在几何一致性方面优于现有方法,同时保持了良好的视觉真实感,验证了几何建模对于全景视频生成的重要性。

📝 摘要(中文)

本文提出了PanoWorld,一个全景视频世界模型,它能够从单张图像和一个文本描述生成几何一致的360度视频。现有的全景视频方法主要优化视觉真实感,而没有明确约束潜在的3D场景状态,导致输出在球形表面上看起来合理,但存在深度不一致、对应关系断裂和不合理的运动。为了解决这个问题,我们将全景视频生成定义为一个几何和动态一致的潜在状态建模问题,而不是纯粹的视觉合成。在预训练的透视视频世界模型的基础上,我们引入了两个轻量级的正则化器:一个针对伪真值全景深度的深度一致性损失,以及一个监督跨时间跟踪点的3D世界坐标的轨迹一致性损失。我们还应用了球面几何感知的自适应方法来处理条件和位置编码。此外,我们还引入了PanoGeo,一个统一的几何感知全景视频数据集,它包含来自各种真实和合成来源的一致的深度、轨迹和提示注释,用于训练和分层评估。实验表明,PanoWorld在保持有竞争力的视觉真实感的同时,提高了相对于先前全景生成方法的几何一致性,这表明全景视频生成必须被视为一个几何建模问题,以支持具身人工智能应用的整体空间理解需求。

🔬 方法详解

问题定义:现有全景视频生成方法主要关注视觉真实性,忽略了场景的几何一致性,导致生成的视频在深度、运动等方面存在不合理之处。这些方法难以满足具身智能等应用对空间理解的严格要求。

核心思路:PanoWorld的核心思路是将全景视频生成问题转化为一个几何和动态一致的潜在状态建模问题。通过显式地约束生成视频的几何属性,例如深度和轨迹,来保证生成视频的合理性和一致性。

技术框架:PanoWorld建立在一个预训练的透视视频世界模型之上。其主要流程包括:1) 使用单张图像和文本描述作为输入;2) 利用预训练模型生成初始的全景视频;3) 通过深度一致性损失和轨迹一致性损失对生成的视频进行优化,以提高几何一致性;4) 使用球面几何感知的自适应方法来处理条件和位置编码。

关键创新:PanoWorld的关键创新在于引入了深度一致性损失和轨迹一致性损失,这两个损失函数能够有效地约束生成视频的几何属性。此外,PanoWorld还提出了球面几何感知的自适应方法,以更好地处理全景图像的特殊几何结构。

关键设计:深度一致性损失通过比较生成视频的深度图与伪真值深度图来约束深度的一致性。轨迹一致性损失通过追踪视频中的特征点,并比较其在3D世界坐标系中的轨迹来约束运动的一致性。球面几何感知的自适应方法则针对全景图像的球面特性,调整了条件和位置编码的方式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PanoWorld在几何一致性方面显著优于现有的全景视频生成方法,同时保持了具有竞争力的视觉真实感。通过引入深度一致性损失和轨迹一致性损失,PanoWorld能够生成更合理、更逼真的全景视频。PanoGeo数据集的发布也为全景视频生成领域的研究提供了新的资源。

🎯 应用场景

PanoWorld生成的几何一致的全景视频可应用于虚拟现实、增强现实、机器人导航、自动驾驶等领域。它能够为这些应用提供更真实、更可靠的环境信息,从而提高用户体验和系统性能。例如,在机器人导航中,机器人可以利用PanoWorld生成的全景视频来构建更准确的地图,从而实现更安全的导航。

📄 摘要(原文)

We present PanoWorld, a panoramic video world model that generates geometry-consistent 360$\degree$ video from a single image and a caption. Existing panoramic video methods optimize primarily for visual realism and do not explicitly constrain the underlying 3D scene state, producing outputs that appear plausible yet exhibit inconsistent depth, broken correspondences, and implausible motion across the spherical surface. We address this gap by framing panoramic video generation as a geometry- and dynamics-consistent latent state modeling problem rather than pure visual synthesis. Building on a pre-trained perspective video world model, we introduce two lightweight regularizers: a depth consistency loss against pseudo ground-truth panoramic depth, and a trajectory consistency loss that supervises the 3D world-frame positions of tracked points across time. We further apply spherical-geometry-aware adaptation to the conditioning and positional encoding. We additionally introduce PanoGeo, a unified geometry-aware panoramic video dataset with consistent depth, trajectory, and prompt annotations across diverse real and synthetic sources, used for both training and stratified evaluation. Experiments show that PanoWorld improves geometric consistency over prior panoramic generation methods while maintaining competitive visual realism, establishing that panoramic video generation must be treated as a geometric modeling problem to support the holistic spatial understanding requirements of embodied AI applications. Code is available at https://github.com/ostadabbas/PanoWorld.