InfraDiffusion: zero-shot depth map restoration with diffusion models and prompted segmentation from sparse infrastructure point clouds
作者: Yixiong Jing, Cheng Zhang, Haibing Wu, Guangming Wang, Olaf Wysocki, Brian Sheil
分类: cs.CV
发布日期: 2025-09-03
🔗 代码/项目: GITHUB
💡 一句话要点
InfraDiffusion:利用扩散模型和提示分割实现零样本深度图修复,用于稀疏基础设施点云
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 点云处理 深度图修复 扩散模型 零样本学习 基础设施检测 语义分割 砖石结构
📋 核心要点
- 现有方法难以从光照不足环境中获取高质量砖石图像,而点云虽然对光照不敏感,但其稀疏性和噪声限制了精细分割。
- InfraDiffusion通过将点云投影为深度图,并利用改进的扩散模型进行修复,从而在零样本条件下提升深度图质量。
- 实验表明,InfraDiffusion显著改善了砖块级分割效果,为自动化砖石结构检测提供了新的可能性。
📝 摘要(中文)
本文提出了一种名为InfraDiffusion的零样本框架,用于修复由稀疏基础设施点云生成的深度图。该框架利用虚拟相机将砖石点云投影为深度图,并通过改进的去噪扩散零空间模型(DDNM)进行修复。InfraDiffusion无需特定任务的训练,即可增强深度图的视觉清晰度和几何一致性。在砖石桥梁和隧道点云数据集上的实验表明,使用Segment Anything Model(SAM)进行砖块级分割时,性能得到显著提升,突显了该方法在砖石结构自动化检测方面的潜力。代码和数据已在https://github.com/Jingyixiong/InfraDiffusion-official-implement上公开。
🔬 方法详解
问题定义:论文旨在解决从稀疏、非结构化和噪声大的基础设施点云中恢复高质量深度图的问题。现有方法在低光照环境下难以获取高质量图像,而直接处理点云进行精细分割(如砖块级分割)面临点云数据质量的挑战。因此,需要一种方法能够从这些低质量点云数据中提取出清晰、几何一致的深度图,以便后续的分割和缺陷检测。
核心思路:论文的核心思路是将点云数据转换为深度图,然后利用扩散模型强大的图像生成和修复能力,对深度图进行增强。通过这种方式,可以有效地利用点云的几何信息,同时克服其稀疏性和噪声带来的问题。选择扩散模型是因为其在图像生成和修复任务中表现出色,并且可以实现零样本学习,无需针对特定任务进行训练。
技术框架:InfraDiffusion框架主要包含以下几个步骤:1) 使用虚拟相机将砖石点云投影为深度图;2) 利用改进的去噪扩散零空间模型(DDNM)对深度图进行修复,增强其视觉清晰度和几何一致性;3) 使用修复后的深度图进行砖块级分割,例如使用Segment Anything Model (SAM)。整体流程是从点云到深度图,再到修复后的深度图,最后进行分割。
关键创新:论文的关键创新在于将扩散模型应用于基础设施点云生成的深度图修复,并实现了零样本学习。通过改进的DDNM模型,可以有效地去除深度图中的噪声和不一致性,从而提高后续分割任务的准确性。此外,该方法无需针对特定类型的砖石结构进行训练,具有很强的泛化能力。
关键设计:论文中关键的设计包括:1) 虚拟相机的参数设置,例如相机位置、视角等,会影响深度图的质量;2) DDNM模型的改进,可能包括损失函数的选择、网络结构的调整等,以适应深度图修复任务的特点;3) 使用Segment Anything Model (SAM) 进行分割,可能需要针对深度图的特点进行一些微调。
🖼️ 关键图片
📊 实验亮点
论文在砖石桥梁和隧道点云数据集上进行了实验,结果表明,使用InfraDiffusion修复后的深度图,能够显著提升砖块级分割的准确性。具体性能提升数据未知,但强调了该方法在实际应用中的潜力。通过与未使用InfraDiffusion的基线方法进行对比,验证了该方法的有效性。
🎯 应用场景
InfraDiffusion可应用于桥梁、隧道等基础设施的自动化检测和维护。通过提升深度图质量,可以更准确地识别砖石结构的缺陷,如剥落和砂浆流失,从而降低人工检测成本,提高检测效率,并为基础设施的健康监测提供更可靠的数据支持。该技术还可扩展到其他类型的点云数据和结构检测任务。
📄 摘要(原文)
Point clouds are widely used for infrastructure monitoring by providing geometric information, where segmentation is required for downstream tasks such as defect detection. Existing research has automated semantic segmentation of structural components, while brick-level segmentation (identifying defects such as spalling and mortar loss) has been primarily conducted from RGB images. However, acquiring high-resolution images is impractical in low-light environments like masonry tunnels. Point clouds, though robust to dim lighting, are typically unstructured, sparse, and noisy, limiting fine-grained segmentation. We present InfraDiffusion, a zero-shot framework that projects masonry point clouds into depth maps using virtual cameras and restores them by adapting the Denoising Diffusion Null-space Model (DDNM). Without task-specific training, InfraDiffusion enhances visual clarity and geometric consistency of depth maps. Experiments on masonry bridge and tunnel point cloud datasets show significant improvements in brick-level segmentation using the Segment Anything Model (SAM), underscoring its potential for automated inspection of masonry assets. Our code and data is available at https://github.com/Jingyixiong/InfraDiffusion-official-implement.