MeSS: City Mesh-Guided Outdoor Scene Generation with Cross-View Consistent Diffusion

📄 arXiv: 2508.15169v3 📥 PDF

作者: Xuyang Chen, Zhijun Zhai, Kaixuan Zhou, Zengmao Wang, Jianan He, Dong Wang, Yanfeng Zhang, mingwei Sun, Rüdiger Westermann, Konrad Schindler, Liqiu Meng

分类: cs.CV

发布日期: 2025-08-21 (更新: 2026-01-04)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MeSS:利用城市网格引导和跨视角一致性扩散生成室外场景

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 场景生成 城市网格 扩散模型 ControlNet 跨视角一致性 3D高斯溅射 室外场景 几何建模

📋 核心要点

  1. 现有方法缺乏真实纹理,限制了城市网格模型在虚拟城市导航和自动驾驶中的应用。
  2. MeSS利用城市网格作为几何先验,通过级联扩散模型和一致性优化,生成高质量、风格一致的室外场景。
  3. 实验表明,MeSS在几何对齐和生成质量上优于现有方法,并能通过风格迁移实现多样化渲染。

📝 摘要(中文)

本文提出了一种名为MeSS(Mesh-based Scene Synthesis)的方法,利用城市网格模型作为几何先验,生成高质量、风格一致的室外场景。虽然图像和视频扩散模型可以利用空间布局(如深度图或高清地图)作为控制条件来生成街景透视图,但它们不能直接应用于3D场景生成。视频扩散模型擅长合成描述场景的一致视角序列,但通常难以遵循预定义的相机路径或与渲染的控制视频精确对齐。相比之下,图像扩散模型虽然无法保证跨视角视觉一致性,但与ControlNet结合使用时,可以产生更符合几何结构的结果。基于此,本文通过提高跨视角一致性来增强图像扩散模型。该流程包括三个关键阶段:首先,使用级联外推ControlNet生成几何一致的稀疏视图;其次,通过名为AGInpaint的组件传播更密集的中间视图;第三,使用GCAlign模块全局消除视觉不一致性(例如,不同的曝光)。在生成的同时,通过在网格表面初始化高斯球来重建3D高斯溅射(3DGS)场景。该方法在几何对齐和生成质量方面均优于现有方法。合成后,可以通过重新光照和风格迁移技术以不同的风格渲染场景。

🔬 方法详解

问题定义:现有方法难以利用城市网格模型生成具有真实纹理的室外场景,尤其是在保证跨视角一致性的前提下。图像扩散模型虽然能生成高质量图像,但难以保证多视角一致性;视频扩散模型虽然能保证视角一致性,但难以与预定义的相机路径精确对齐。因此,如何利用城市网格的几何信息,生成高质量且跨视角一致的室外场景是一个挑战。

核心思路:MeSS的核心思路是结合图像扩散模型和ControlNet的几何控制能力,通过逐步细化的方式,先生成几何一致的稀疏视图,然后传播到更密集的中间视图,最后全局优化视觉一致性。这种方法既能保证几何对齐,又能提高跨视角一致性。

技术框架:MeSS的整体框架包含三个阶段:1) 稀疏视图生成:使用级联外推ControlNet,以城市网格模型为几何先验,生成几何一致的稀疏视图。2) 密集视图传播:通过AGInpaint模块,将稀疏视图的信息传播到更密集的中间视图,填充场景细节。3) 全局一致性优化:使用GCAlign模块,全局消除视觉不一致性,例如不同视角的曝光差异。在生成图像的同时,还在网格表面初始化高斯球,重建3D高斯溅射(3DGS)场景。

关键创新:MeSS的关键创新在于:1) 提出了一种级联外推ControlNet,用于生成几何一致的稀疏视图。2) 设计了AGInpaint模块,用于将稀疏视图的信息传播到更密集的中间视图。3) 引入了GCAlign模块,用于全局优化视觉一致性。与现有方法相比,MeSS能够更好地利用城市网格的几何信息,生成更高质量且跨视角一致的室外场景。

关键设计:Cascaded Outpainting ControlNets的具体实现细节未知。AGInpaint模块的具体实现细节未知。GCAlign模块的具体实现细节未知。3DGS场景的初始化方式是在网格表面均匀采样点,并赋予初始的高斯球参数。损失函数可能包含几何对齐损失、图像质量损失和视角一致性损失。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了MeSS在几何对齐和生成质量方面的优越性。与现有方法相比,MeSS能够生成更符合城市网格几何结构的场景,并且具有更高的视觉质量和跨视角一致性。具体性能数据未知,但论文强调MeSS在主观视觉效果上明显优于对比方法。此外,MeSS还支持通过重新光照和风格迁移技术,生成不同风格的场景。

🎯 应用场景

MeSS具有广泛的应用前景,包括虚拟城市导航、自动驾驶模拟、游戏场景生成、城市规划可视化等。通过MeSS,可以快速生成高质量、风格一致的城市室外场景,为相关应用提供逼真的环境数据和视觉体验。此外,MeSS还可以用于城市模型的修复和增强,提高城市模型的可用性和价值。未来,MeSS有望成为城市数字化转型的重要工具。

📄 摘要(原文)

Mesh models have become increasingly accessible for numerous cities; however, the lack of realistic textures restricts their application in virtual urban navigation and autonomous driving. To address this, this paper proposes MeSS (Meshbased Scene Synthesis) for generating high-quality, styleconsistent outdoor scenes with city mesh models serving as the geometric prior. While image and video diffusion models can leverage spatial layouts (such as depth maps or HD maps) as control conditions to generate street-level perspective views, they are not directly applicable to 3D scene generation. Video diffusion models excel at synthesizing consistent view sequences that depict scenes but often struggle to adhere to predefined camera paths or align accurately with rendered control videos. In contrast, image diffusion models, though unable to guarantee cross-view visual consistency, can produce more geometry-aligned results when combined with ControlNet. Building on this insight, our approach enhances image diffusion models by improving cross-view consistency. The pipeline comprises three key stages: first, we generate geometrically consistent sparse views using Cascaded Outpainting ControlNets; second, we propagate denser intermediate views via a component dubbed AGInpaint; and third, we globally eliminate visual inconsistencies (e.g., varying exposure) using the GCAlign module. Concurrently with generation, a 3D Gaussian Splatting (3DGS) scene is reconstructed by initializing Gaussian balls on the mesh surface. Our method outperforms existing approaches in both geometric alignment and generation quality. Once synthesized, the scene can be rendered in diverse styles through relighting and style transfer techniques. project page: https://albertchen98.github.io/mess/