City-Mesh3R: Simulation-Ready City-Scale 3D Mesh Reconstruction from Multi-View Images

📄 arXiv: 2605.30310v1 📥 PDF

作者: Sayan Paul, Sourav Ghosh, Siddharth Katageri, Soumyadip Maity, Sanjana Sinha, Brojeshwar Bhowmick

分类: cs.CV, cs.AI, cs.GR

发布日期: 2026-05-28

备注: Accepted to the USM3D Workshop Proceedings at the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2026 as an Oral Presentation. Project page: https://citymesh3r.github.io/


💡 一句话要点

City-Mesh3R:从多视角图像重建可用于仿真的城市级三维网格模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 三维重建 城市建模 多视角图像 分而治之 表面重建 网格模型 SfM 图像聚类

📋 核心要点

  1. 现有城市级三维重建方法难以生成完整、规则且适合仿真的网格模型,且计算复杂度高,难以扩展。
  2. City-Mesh3R采用分而治之的策略,通过拓扑聚类、稀疏SfM和地图合并重建稀疏地图,避免全局特征匹配。
  3. 该框架通过几何感知相机选择、密集表面重建和曲率感知重网格化,生成高保真、水密且规则的城市级三维网格。

📝 摘要(中文)

本文提出City-Mesh3R,一个可扩展的框架,用于直接从大型无序图像集合中重建水密表面网格。现有的基于NeRF、Gaussian Splatting等城市级三维重建方法,由于几何不完整/缺失以及不规则、嘈杂的表面,通常无法恢复可用于仿真的三维网格。将现有的小规模三维重建方法扩展到任意大的城市场景是不可行的,因为它们的计算复杂度很高。City-Mesh3R采用分而治之的策略,实现端到端的图像到网格的三维重建方法。通过拓扑图像聚类、分簇独立稀疏SfM和地图合并来重建稀疏城市地图,无需详尽的图像特征匹配。然后,对该地图进行空间划分,以执行几何感知的相机选择,然后进行密集表面重建和使用曲率感知的自适应顶点密度重网格化进行表面细化。然后将这些分区网格缝合在一起,以生成城市的全局网格。所提出的端到端框架在城市级重建数据集上进行了评估。定性和定量结果表明,该方法生成了具有规则几何体的高保真水密三维网格,捕捉了精细的表面细节,并且由于在分布式环境中进行端到端处理,因此适合扩展到任意大的场景。

🔬 方法详解

问题定义:城市级三维重建旨在从多视角图像中恢复城市场景的3D模型。现有方法,如基于NeRF或高斯溅射的方法,通常难以生成可用于仿真的高质量网格模型,存在几何信息缺失、表面不规则等问题。此外,直接将小规模重建方法扩展到城市尺度会导致计算量急剧增加,难以实际应用。

核心思路:City-Mesh3R的核心思路是采用“分而治之”的策略,将大规模的城市重建问题分解为多个小规模的子问题,分别进行处理,最后将结果合并。这种方法降低了计算复杂度,使得处理大规模场景成为可能。同时,该方法避免了全局特征匹配,提高了效率。

技术框架:City-Mesh3R的整体框架包括以下几个主要阶段:1. 拓扑图像聚类:对输入图像进行聚类,将相似的图像划分到同一簇中。2. 分簇稀疏SfM:对每个图像簇独立进行稀疏SfM重建,得到每个簇的稀疏点云地图。3. 地图合并:将各个簇的稀疏地图合并成一个全局的稀疏城市地图。4. 空间划分:将全局地图划分为多个空间区域。5. 几何感知相机选择:为每个空间区域选择合适的相机。6. 密集表面重建:利用选定的相机图像,对每个空间区域进行密集表面重建。7. 表面细化:使用曲率感知的自适应顶点密度重网格化方法对表面进行细化。8. 网格缝合:将各个空间区域的网格缝合在一起,得到最终的城市级三维网格模型。

关键创新:City-Mesh3R的关键创新在于其端到端的图像到网格的重建流程,以及分而治之的策略。与现有方法相比,City-Mesh3R避免了全局特征匹配,降低了计算复杂度,并且能够生成高质量的水密网格模型。此外,曲率感知的自适应顶点密度重网格化方法能够有效地细化表面,提高模型的精度。

关键设计:在拓扑图像聚类阶段,使用了基于图像特征的聚类算法。在稀疏SfM阶段,采用了常用的SfM算法,如COLMAP。在密集表面重建阶段,使用了多视角立体匹配算法。曲率感知的自适应顶点密度重网格化方法根据表面的曲率调整顶点密度,在曲率高的区域使用更高的顶点密度,以保留更多的细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在城市级数据集上进行了实验,结果表明City-Mesh3R能够生成高保真、水密且规则的城市级三维网格模型。与现有方法相比,City-Mesh3R在几何精度和表面质量方面都有显著提升。由于采用了分而治之的策略,City-Mesh3R能够扩展到任意大的城市场景。

🎯 应用场景

City-Mesh3R生成的城市级三维网格模型可广泛应用于城市规划、自动驾驶仿真、游戏开发、虚拟现实等领域。高质量的城市三维模型能够为城市规划提供更直观的参考,为自动驾驶提供更真实的仿真环境,为游戏和VR应用提供更逼真的场景。

📄 摘要(原文)

City-scale 3D surface reconstruction from multiview images for downstream 3D simulation, poses highly challenging problems due to the scale and complexity of urban scenes. Existing city-scale 3D reconstruction methods based on NeRF, Gaussian Splatting etc. often fail to recover 3D meshes ready for simulation due to incomplete/missing geometry and irregular, noisy surfaces. Scaling existing small-scale 3D reconstruction methods to arbitrarily large urban scenes is highly infeasible due to their computational complexity. We present City-Mesh3R, a scalable framework for reconstructing watertight surface meshes directly from large unordered image collections. Unlike recent methods which use global sparse SfM point-cloud initialization followed by a distributed 3D dense reconstruction of large-scale scenes, our method follows an end-to-end images-to-mesh 3D reconstruction approach using a divide-and-conquer strategy. The sparse city map is reconstructed via topological image clustering, cluster-wise independent sparse SfM and map merging, without need for exhaustive image feature matching. Then this map is partitioned spatially to perform geometry-aware camera selection, followed by dense surface reconstruction and surface refinement using curvature-aware adaptive vertex density remeshing. These partition meshes are then stitched together to produce the global mesh of the city. The proposed end-to-end framework is evaluated on city-scale reconstruction datasets. As demonstrated by our qualitative and quantitative results, our proposed method yields high-fidelity watertight 3D meshes with regular geometry, capturing fine surface details, and is suitable for scaling to arbitrarily large scenes owing to the end-to-end processing in a distributed setting.