GaussianCAD: Robust Self-Supervised CAD Reconstruction from Three Orthographic Views Using 3D Gaussian Splatting
作者: Zheng Zhou, Zhe Li, Bo Yu, Lina Hu, Liang Dong, Zijian Yang, Xiaoli Liu, Ning Xu, Ziwei Wang, Yonghao Dang, Jianqin Yin
分类: cs.CV, cs.CE
发布日期: 2025-03-07
💡 一句话要点
GaussianCAD:利用3D高斯溅射从三个正交视图中进行鲁棒的自监督CAD重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: CAD重建 3D高斯溅射 自监督学习 稀疏视图重建 计算机视觉
📋 核心要点
- 现有CAD重建方法依赖矢量CAD草图和3D真值,数据获取困难且对噪声敏感,限制了工业应用。
- 将CAD重建视为稀疏视图3D重建,通过转换CAD草图为图像表示并手动计算相机姿态,实现自监督学习。
- 在Sub-Fusion360数据集上,该方法显著优于现有方法,并对噪声输入具有更强的鲁棒性。
📝 摘要(中文)
本文提出了一种从CAD草图自动重建3D计算机辅助设计(CAD)模型的方法。现有方法依赖于矢量CAD草图和3D真值进行监督,这在工业应用中难以获得,且对噪声敏感。本文将CAD重建视为稀疏视图3D重建的一个特例。为了解决CAD草图与自然图像之间的模态差异以及CAD草图精确相机姿态估计的困难,首先将CAD草图转换为类似于自然图像的表示并提取相应的掩码。然后,手动计算正交视图的相机姿态,以确保在3D坐标系中的精确对齐。最后,采用定制的稀疏视图3D重建方法,从对齐的正交视图中实现高质量重建。通过利用栅格CAD草图进行自监督,该方法消除了对矢量CAD草图和3D真值的依赖。在Sub-Fusion360数据集上的实验表明,该方法显著优于以往的CAD重建方法,并对噪声输入表现出强大的鲁棒性。
🔬 方法详解
问题定义:现有CAD重建方法依赖于矢量CAD草图和3D真值,而这些数据在实际工业应用中往往难以获取,并且这些方法对输入中的噪声非常敏感。因此,如何仅使用易于获取的栅格CAD草图,实现鲁棒的3D CAD模型重建是一个关键问题。
核心思路:本文的核心思路是将CAD重建问题转化为一个稀疏视图的3D重建问题。通过将CAD草图视为从三个正交视图拍摄的图像,并利用3D高斯溅射(3D Gaussian Splatting)技术,可以实现从这些稀疏视图中重建出高质量的3D CAD模型。这种方法避免了对矢量CAD草图和3D真值的依赖,从而实现了自监督学习。
技术框架:该方法主要包含以下几个阶段:1) CAD草图预处理:将输入的CAD草图转换为类似于自然图像的表示,并提取相应的掩码。2) 相机姿态估计:手动计算三个正交视图的相机姿态,以确保它们在3D坐标系中正确对齐。3) 3D重建:使用定制的稀疏视图3D重建方法,从对齐的正交视图中重建出3D CAD模型。该方法利用3D高斯溅射技术,通过优化高斯参数来拟合输入视图,从而实现高质量的重建。
关键创新:该方法最重要的创新点在于它将CAD重建问题转化为一个稀疏视图的3D重建问题,并利用3D高斯溅射技术实现了自监督学习。与现有方法相比,该方法不需要矢量CAD草图和3D真值,从而降低了数据获取的难度,并且对噪声输入具有更强的鲁棒性。
关键设计:在CAD草图预处理阶段,需要设计合适的图像转换方法,将CAD草图转换为类似于自然图像的表示。在相机姿态估计阶段,需要精确计算三个正交视图的相机姿态,以确保它们在3D坐标系中正确对齐。在3D重建阶段,需要选择合适的3D高斯溅射参数,例如高斯数量、学习率等,以实现高质量的重建。损失函数的设计也至关重要,需要考虑重建精度、视图一致性等因素。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在Sub-Fusion360数据集上显著优于以往的CAD重建方法。具体而言,该方法在重建精度和鲁棒性方面均取得了显著提升。此外,该方法对噪声输入表现出强大的鲁棒性,即使在CAD草图中存在大量噪声的情况下,仍然能够重建出高质量的3D模型。
🎯 应用场景
该研究成果可广泛应用于工业设计、建筑设计、产品建模等领域。通过自动从CAD草图重建3D模型,可以大大提高设计效率,降低设计成本。此外,该方法对噪声具有鲁棒性,可以处理不完美的CAD草图,具有很强的实用价值。未来,该技术有望应用于智能制造、虚拟现实等领域。
📄 摘要(原文)
The automatic reconstruction of 3D computer-aided design (CAD) models from CAD sketches has recently gained significant attention in the computer vision community. Most existing methods, however, rely on vector CAD sketches and 3D ground truth for supervision, which are often difficult to be obtained in industrial applications and are sensitive to noise inputs. We propose viewing CAD reconstruction as a specific instance of sparse-view 3D reconstruction to overcome these limitations. While this reformulation offers a promising perspective, existing 3D reconstruction methods typically require natural images and corresponding camera poses as inputs, which introduces two major significant challenges: (1) modality discrepancy between CAD sketches and natural images, and (2) difficulty of accurate camera pose estimation for CAD sketches. To solve these issues, we first transform the CAD sketches into representations resembling natural images and extract corresponding masks. Next, we manually calculate the camera poses for the orthographic views to ensure accurate alignment within the 3D coordinate system. Finally, we employ a customized sparse-view 3D reconstruction method to achieve high-quality reconstructions from aligned orthographic views. By leveraging raster CAD sketches for self-supervision, our approach eliminates the reliance on vector CAD sketches and 3D ground truth. Experiments on the Sub-Fusion360 dataset demonstrate that our proposed method significantly outperforms previous approaches in CAD reconstruction performance and exhibits strong robustness to noisy inputs.