Reconstruction of a 3D wireframe from a single line drawing via generative depth estimation

📄 arXiv: 2604.13549v1 📥 PDF

作者: Elton Cao, Hod Lipson

分类: cs.CV

发布日期: 2026-04-15


💡 一句话要点

提出基于生成式深度估计的3D线框重建方法,实现从单张草图到3D模型的转换。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D重建 深度估计 生成模型 潜在扩散模型 ControlNet 草图建模 计算机视觉

📋 核心要点

  1. 现有2D草图重建3D模型的方法,要么依赖脆弱的符号逻辑,要么受限于刚性的参数化建模,缺乏灵活性。
  2. 论文提出一种生成式方法,将3D重建视为条件深度估计问题,利用潜在扩散模型和ControlNet框架解决歧义性。
  3. 通过在大型数据集上训练,该方法在各种复杂形状上表现出鲁棒性,实现了从2D草图到3D模型的有效转换。

📝 摘要(中文)

本文提出了一种生成式方法,将2D手绘草图转换为3D模型,旨在弥合人类创造力与数字制造之间的差距。传统的线稿重建依赖于脆弱的符号逻辑,而现代方法则受限于刚性的参数化建模。该方法将重建问题定义为条件密集深度估计任务,并采用带有ControlNet风格调节框架的潜在扩散模型(LDM),以解决正交投影的固有歧义性。为了支持迭代的“草图-重建-草图”工作流程,引入了一种基于图的BFS掩蔽策略来模拟部分深度线索。该方法使用来自ABC数据集的超过一百万个图像-深度对的大规模数据集进行训练和评估,并在各种形状复杂度上表现出强大的性能,为将稀疏2D线稿转换为密集3D表示提供了一个可扩展的流程,有效地允许用户“在3D中绘制”,而没有传统CAD的刚性约束。

🔬 方法详解

问题定义:论文旨在解决从单张2D线稿重建3D模型的问题。现有方法,如基于符号逻辑的方法,容易出错且缺乏鲁棒性;而基于参数化建模的方法,则限制了用户的创作自由,只能使用预定义的CAD图元。这些方法都难以满足用户自由创作的需求。

核心思路:论文的核心思路是将3D重建问题转化为一个条件密集深度估计问题。通过预测线稿中每个像素的深度值,从而恢复出3D形状。这种方法避免了传统方法的复杂规则和参数约束,更加灵活和通用。

技术框架:整体框架基于潜在扩散模型(LDM),并结合ControlNet风格的调节框架。首先,将输入的2D线稿作为条件输入到ControlNet中,ControlNet负责提取线稿的特征。然后,将这些特征与LDM的潜在空间表示相结合,引导LDM生成深度图。为了支持迭代的“草图-重建-草图”工作流程,引入了一种基于图的BFS掩蔽策略来模拟部分深度线索。

关键创新:最重要的创新点在于将3D重建问题转化为生成式的深度估计问题,并利用潜在扩散模型和ControlNet框架来解决正交投影的歧义性。这种方法摆脱了传统方法的约束,能够生成更加多样和复杂的3D模型。此外,BFS掩蔽策略也为交互式的3D建模提供了可能。

关键设计:论文使用ABC数据集训练LDM模型,该数据集包含超过一百万个图像-深度对。ControlNet的网络结构与LDM保持一致,以便更好地融合线稿特征。BFS掩蔽策略通过模拟部分深度线索,引导模型生成更加准确的深度图。损失函数包括深度预测的L1损失和对抗损失,以提高生成深度图的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在ABC数据集上进行了训练和评估,结果表明,该方法能够有效地从2D线稿重建出高质量的3D模型。与传统的基于规则的方法相比,该方法具有更强的鲁棒性和泛化能力。此外,该方法还支持交互式的3D建模,用户可以通过不断修改草图来优化3D模型。

🎯 应用场景

该研究成果可应用于快速原型设计、游戏开发、建筑设计等领域。用户可以通过简单的手绘草图快速生成3D模型,无需掌握复杂的CAD软件。该方法还可以用于增强现实和虚拟现实应用,例如将手绘草图转换为虚拟场景中的3D对象。未来,该技术有望成为一种更加自然和直观的3D建模方式。

📄 摘要(原文)

The conversion of 2D freehand sketches into 3D models remains a pivotal challenge in computer vision, bridging the gap between human creativity and digital fabrication. Traditional line drawing reconstruction relies on brittle symbolic logic, while modern approaches are constrained by rigid parametric modeling, limiting users to predefined CAD primitives. We propose a generative approach by framing reconstruction as a conditional dense depth estimation task. To achieve this, we implement a Latent Diffusion Model (LDM) with a ControlNet-style conditioning framework to resolve the inherent ambiguities of orthographic projections. To support an iterative "sketch-reconstruct-sketch" workflow, we introduce a graph-based BFS masking strategy to simulate partial depth cues. We train and evaluate our approach using a massive dataset of over one million image-depth pairs derived from the ABC Dataset. Our framework demonstrates robust performance across varying shape complexities, providing a scalable pipeline for converting sparse 2D line drawings into dense 3D representations, effectively allowing users to "draw in 3D" without the rigid constraints of traditional CAD.