Segmentation-aware Prior Assisted Joint Global Information Aggregated 3D Building Reconstruction

📄 arXiv: 2410.18433v1 📥 PDF

作者: Hongxin Peng, Yongjian Liao, Weijun Li, Chuanyu Fu, Guoxin Zhang, Ziquan Ding, Zijie Huang, Qiku Cao, Shuting Cai

分类: cs.CV

发布日期: 2024-10-24


💡 一句话要点

提出分割感知的先验辅助全局信息聚合方法,提升弱纹理区域三维重建质量

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 三维重建 多视点立体视觉 弱纹理区域 平面先验 全局信息聚合 Segment Anything模型 RANSAC算法

📋 核心要点

  1. 大规模建筑场景中弱纹理区域的三维重建是难点,传统多视点立体视觉方法在此区域深度估计精度低。
  2. 利用Segment Anything模型和RANSAC算法分割弱纹理区域,构建平面先验,并结合三角剖分先验形成候选集。
  3. 提出全局信息聚合代价函数,在深度估计更新时,基于全局信息和几何一致性约束选择最优先验。

📝 摘要(中文)

多视点立体视觉在土木工程中通过促进三维建模、精确工程测量、定量分析以及监测和维护发挥着关键作用。它提供高精度和实时的空间信息,对各种工程项目至关重要。然而,多视点立体视觉算法在重建大规模建筑场景中的弱纹理区域时面临挑战。在这些区域,像素的立体匹配经常失败,导致不准确的深度估计。基于Segment Anything模型和RANSAC算法,我们提出了一种算法,可以准确地分割弱纹理区域并构建它们的平面先验。这些平面先验与三角剖分先验相结合,形成可靠的先验候选集。此外,我们引入了一种新的全局信息聚合代价函数。该函数基于先验候选集中的全局信息选择最优的平面先验信息,并在深度估计更新过程中受到几何一致性的约束。在ETH3D基准数据集、航拍数据集、建筑数据集和真实场景上的实验结果证实了我们的方法在生成三维建筑模型方面优于其他最先进的方法。总而言之,我们的工作旨在提高三维建筑重建的完整性和密度,对城市规划和虚拟现实等更广泛的应用具有重要意义。

🔬 方法详解

问题定义:论文旨在解决大规模建筑场景中,由于弱纹理区域的存在,导致多视点立体视觉三维重建不完整、不精确的问题。现有方法在这些区域的像素立体匹配容易失败,深度估计误差大,影响整体重建质量。

核心思路:论文的核心思路是利用先验信息辅助深度估计,特别是在弱纹理区域。通过引入分割感知的平面先验,并结合全局信息聚合,在深度估计更新过程中选择最优的先验信息,从而提高弱纹理区域的重建精度和完整性。这种方法的核心在于如何有效地提取和利用先验信息,以及如何将这些先验信息融入到深度估计过程中。

技术框架:整体框架包含以下几个主要阶段:1) 使用Segment Anything模型和RANSAC算法进行弱纹理区域分割和平面先验构建;2) 结合三角剖分先验,形成先验候选集;3) 构建全局信息聚合代价函数,用于评估和选择最优先验;4) 在深度估计更新过程中,利用选定的先验信息进行约束,提高深度估计的准确性。

关键创新:论文的关键创新在于:1) 提出了一种分割感知的平面先验构建方法,能够准确地识别和分割弱纹理区域,并为其构建可靠的平面先验;2) 引入了一种全局信息聚合代价函数,能够有效地利用全局信息来选择最优的先验信息,从而提高深度估计的准确性;3) 将先验信息与深度估计过程紧密结合,通过几何一致性约束,确保重建结果的合理性。

关键设计:论文的关键设计包括:1) 使用Segment Anything模型进行图像分割,该模型具有强大的泛化能力,能够适应各种复杂的建筑场景;2) 利用RANSAC算法进行平面拟合,能够有效地去除噪声点,提高平面先验的准确性;3) 设计全局信息聚合代价函数,该函数考虑了像素之间的关系,能够有效地利用全局信息来选择最优的先验信息;4) 在深度估计更新过程中,使用几何一致性约束,确保重建结果的合理性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在ETH3D基准数据集、航拍数据集、建筑数据集和真实场景中均取得了优于其他state-of-the-art方法的性能。具体性能数据未知,但论文强调了在三维建筑模型重建的完整性和密度方面的显著提升,表明该方法在弱纹理区域的处理上具有明显优势。

🎯 应用场景

该研究成果可广泛应用于城市规划、建筑信息模型(BIM)、虚拟现实、增强现实、工程测量、灾害评估等领域。通过提高三维建筑重建的精度和完整性,可以为城市管理、建筑设计、虚拟漫游等应用提供更可靠的数据支持,具有重要的实际应用价值和广阔的市场前景。

📄 摘要(原文)

Multi-View Stereo plays a pivotal role in civil engineering by facilitating 3D modeling, precise engineering surveying, quantitative analysis, as well as monitoring and maintenance. It serves as a valuable tool, offering high-precision and real-time spatial information crucial for various engineering projects. However, Multi-View Stereo algorithms encounter challenges in reconstructing weakly-textured regions within large-scale building scenes. In these areas, the stereo matching of pixels often fails, leading to inaccurate depth estimations. Based on the Segment Anything Model and RANSAC algorithm, we propose an algorithm that accurately segments weakly-textured regions and constructs their plane priors. These plane priors, combined with triangulation priors, form a reliable prior candidate set. Additionally, we introduce a novel global information aggregation cost function. This function selects optimal plane prior information based on global information in the prior candidate set, constrained by geometric consistency during the depth estimation update process. Experimental results on both the ETH3D benchmark dataset, aerial dataset, building dataset and real scenarios substantiate the superior performance of our method in producing 3D building models compared to other state-of-the-art methods. In summary, our work aims to enhance the completeness and density of 3D building reconstruction, carrying implications for broader applications in urban planning and virtual reality.