PanoWorld: A Generative Spatial World Model for Consistent Whole-House Panorama Synthesis
作者: Jinrang Jia, Zhenjia Li, Yijiang Hu, Yifeng Shi
分类: cs.CV
发布日期: 2026-05-18
备注: 17
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
PanoWorld:用于生成一致全屋全景图的生成式空间世界模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 全景图生成 空间世界模型 VR导览 3D高斯溅射 自回归生成
📋 核心要点
- 现有方法在生成全屋VR导览时,2D生成器缺乏跨视角一致性,而单体3D生成成本高昂且丢失细节。
- PanoWorld利用户型图作为几何先验,结合动态3D高斯溅射缓存,以自回归方式生成一致的全景图序列。
- 该方法通过全景LRM进行3DGS更新,并采用房间感知注意力机制和拓扑感知缓存策略,提升了生成质量和效率。
📝 摘要(中文)
本文提出PanoWorld,一种生成式空间世界模型,用于从户型图和风格参考生成一致的全屋VR导览。该模型将全屋合成视为基于节点的360度全景图的自回归生成,与真实VR导览产品使用的离散导航相匹配。PanoWorld使用从户型图导出的3D壳作为全局几何代理,并使用动态3D高斯溅射缓存作为可渲染的空间记忆。专为米级多房间360度输入设计的全景LRM将生成的全景图提升到局部3DGS更新中,而房间感知组注意力抑制了跨房间的特征干扰。一种拓扑感知渐进式缓存策略融合了这些局部更新,而无需重复重建完整的历史。通过将基于壳的几何引导与缓存渲染的视觉记忆解耦,PanoWorld在提高跨节点布局和材质一致性的同时,保留了高频2D合成质量。
🔬 方法详解
问题定义:现有方法在生成全屋VR导览时面临两个主要问题。一是纯2D生成器虽然可以生成美观的单张全景图,但在视角变化时会重新想象几何体和材质,导致跨视角不一致。二是单体3D生成方法计算成本高昂,并且在多房间尺度下会丢失精细的纹理细节。因此,需要一种既能保证全景图质量,又能维持跨视角空间一致性的全屋全景图生成方法。
核心思路:PanoWorld的核心思路是将全屋场景建模为一个基于节点的360度全景图的自回归生成过程,这与VR导览产品中使用的离散导航方式相符。通过引入从户型图导出的3D壳作为全局几何代理,并使用动态3D高斯溅射(3DGS)缓存作为可渲染的空间记忆,PanoWorld实现了几何引导和视觉渲染的解耦,从而在保证高频细节的同时,提升了跨节点的一致性。
技术框架:PanoWorld的整体框架包含以下几个主要模块:1) 3D壳生成:从输入的户型图生成一个3D壳,作为全局几何先验。2) 全景图生成:使用生成器自回归地生成每个节点的全景图。3) 全景LRM (Panoramic Local Refinement Module):将生成的全景图提升到局部3DGS更新中,用于更新空间记忆。4) 房间感知组注意力 (Room-aware Group Attention):抑制跨房间的特征干扰,提高生成质量。5) 拓扑感知渐进式缓存 (Topology-aware Progressive Caching):融合局部更新,避免重复重建历史,提高效率。
关键创新:PanoWorld的关键创新在于将基于壳的几何引导与缓存渲染的视觉记忆解耦。传统的单体3D生成方法需要一次性生成整个场景,计算成本高昂。而PanoWorld通过使用3D壳作为几何先验,并将视觉信息存储在动态3DGS缓存中,实现了局部更新和全局一致性的平衡。此外,房间感知组注意力和拓扑感知渐进式缓存策略进一步提升了生成质量和效率。
关键设计:全景LRM的设计使其能够有效地将2D全景图信息融入到3DGS缓存中,从而实现局部场景的精细化。房间感知组注意力机制通过将特征分组到不同的房间中,并限制跨房间的注意力交互,减少了房间之间的干扰,提高了生成质量。拓扑感知渐进式缓存策略则利用户型图的拓扑信息,逐步融合局部更新,避免了重复计算,提高了效率。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了PanoWorld的有效性。实验结果表明,PanoWorld在跨节点布局和材质一致性方面优于现有方法,同时保持了高频2D合成质量。项目主页展示了大量生成结果,证明了该方法在生成逼真全屋全景图方面的能力。
🎯 应用场景
PanoWorld具有广泛的应用前景,可用于室内设计、房地产展示、虚拟旅游等领域。它可以根据户型图和风格偏好自动生成逼真的全屋VR导览,为用户提供沉浸式的体验。此外,该技术还可以用于游戏场景生成、机器人导航等领域,具有重要的实际价值和未来发展潜力。
📄 摘要(原文)
Generating a consistent whole-house VR tour from a floorplan and style reference requires both photorealistic panoramas and cross-view spatial coherence. Pure 2D generators produce appealing single panoramas but re-imagine geometry and materials when the viewpoint changes, whereas monolithic 3D generation becomes expensive and loses fine texture at multi-room scale. We introduce PanoWorld, a generative spatial world model that treats whole-house synthesis as autoregressive generation of node-based 360-degree panoramas, matching the discrete navigation used by real VR tour products. PanoWorld uses a floorplan-derived 3D shell as a global geometric proxy and a dynamic 3D Gaussian Splatting cache as renderable spatial memory. A feed-forward panoramic LRM designed for metric-scale multi-room 360-degree inputs lifts generated panoramas into local 3DGS updates, while Room-aware Group Attention suppresses cross-room feature interference. A topology-aware progressive caching strategy fuses these local updates without repeatedly reconstructing the full history. By decoupling shell-based geometry guidance from cache-rendered visual memory, PanoWorld preserves high-frequency 2D synthesis quality while improving cross-node layout and material consistency. The project link is https://jjrcn.github.io/PanoWorld-project-home/