Top2Pano: Learning to Generate Indoor Panoramas from Top-Down View

📄 arXiv: 2507.21371v1 📥 PDF

作者: Zitong Zhang, Suranjan Gautam, Rui Yu

分类: cs.CV

发布日期: 2025-07-28

备注: ICCV 2025. Project page: https://top2pano.github.io/


💡 一句话要点

Top2Pano:提出一种从俯视图生成室内全景图的端到端模型

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 室内全景图生成 俯视图 体渲染 扩散模型 ControlNet 三维重建 虚拟现实

📋 核心要点

  1. 现有方法难以从俯视图生成高质量室内全景图,主要挑战在于缺乏明确的3D结构信息。
  2. Top2Pano通过体素占据率估计3D结构,并结合体渲染和扩散模型,实现逼真全景图生成。
  3. 实验结果表明,Top2Pano在几何重建、遮挡处理和空间布局方面优于现有方法,并具有良好的泛化能力。

📝 摘要(中文)

本文提出Top2Pano,一个从2D俯视图合成逼真室内360°全景图的端到端模型。该任务具有挑战性,因为它缺乏显式的3D结构,并且需要几何一致性和照片真实感。Top2Pano通过估计体素占据率来推断3D结构,然后使用体渲染生成粗略的颜色和深度全景图。这些全景图通过ControlNet引导的扩散模型进行细化,从而增强真实感和结构保真度。在两个数据集上的评估表明,Top2Pano优于基线方法,有效地重建了几何结构、遮挡和空间布局。它也具有良好的泛化能力,可以从示意性平面图生成高质量的全景图。结果突出了Top2Pano在连接俯视图和沉浸式室内合成方面的潜力。

🔬 方法详解

问题定义:论文旨在解决从2D俯视图生成逼真室内360°全景图的问题。现有方法通常难以准确推断3D结构,导致生成的全景图缺乏几何一致性和照片真实感,难以满足虚拟现实、室内设计等应用的需求。

核心思路:论文的核心思路是利用体素占据率来推断3D结构,并结合体渲染和扩散模型,分阶段生成高质量的全景图。首先通过体素占据率估计场景的3D结构,然后使用体渲染生成粗略的全景图,最后利用扩散模型进行细化,从而提高全景图的真实感和结构保真度。

技术框架:Top2Pano模型包含三个主要阶段:1) 体素占据率估计:从俯视图预测场景的体素占据率,用于推断3D结构。2) 体渲染:利用估计的体素占据率进行体渲染,生成粗略的颜色和深度全景图。3) 扩散模型细化:使用ControlNet引导的扩散模型,以粗略的全景图作为条件,生成高分辨率、高真实感的全景图。

关键创新:该方法最重要的创新点在于结合了体渲染和扩散模型,实现了从粗略到精细的全景图生成。体渲染可以提供初步的几何结构信息,而扩散模型可以增强图像的真实感和细节。ControlNet的使用使得扩散模型能够更好地利用体渲染的结果,从而生成更准确、更逼真的全景图。

关键设计:在体素占据率估计阶段,使用3D CNN进行预测。在体渲染阶段,采用可微分渲染技术,使得模型可以进行端到端训练。在扩散模型细化阶段,使用ControlNet将体渲染的结果作为条件输入,引导扩散模型的生成过程。损失函数包括重建损失、对抗损失和感知损失,用于提高生成全景图的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Top2Pano在两个数据集上进行了评估,结果表明其优于基线方法。具体而言,Top2Pano在几何重建、遮挡处理和空间布局方面表现出色,能够生成更准确、更逼真的全景图。此外,Top2Pano还具有良好的泛化能力,可以从示意性平面图生成高质量的全景图,这表明其具有很强的实用价值。

🎯 应用场景

Top2Pano在虚拟现实、室内设计、房地产和机器人等领域具有广泛的应用前景。它可以用于生成虚拟现实环境,帮助用户沉浸式地体验室内空间。在室内设计领域,它可以根据平面图快速生成室内效果图,辅助设计师进行方案设计。在房地产领域,它可以用于生成房屋的全景展示,方便用户远程看房。在机器人领域,它可以帮助机器人理解室内环境,实现自主导航和任务执行。

📄 摘要(原文)

Generating immersive 360° indoor panoramas from 2D top-down views has applications in virtual reality, interior design, real estate, and robotics. This task is challenging due to the lack of explicit 3D structure and the need for geometric consistency and photorealism. We propose Top2Pano, an end-to-end model for synthesizing realistic indoor panoramas from top-down views. Our method estimates volumetric occupancy to infer 3D structures, then uses volumetric rendering to generate coarse color and depth panoramas. These guide a diffusion-based refinement stage using ControlNet, enhancing realism and structural fidelity. Evaluations on two datasets show Top2Pano outperforms baselines, effectively reconstructing geometry, occlusions, and spatial arrangements. It also generalizes well, producing high-quality panoramas from schematic floorplans. Our results highlight Top2Pano's potential in bridging top-down views with immersive indoor synthesis.