Sketch2MinSurf: Vision-Language Guided Generation of Editable Minimal Surfaces from Hand-Drawn Sketches
作者: Wenda Wang, Anqi Liu, Junqi Yang, Lei He, Luying Wang, Jiachen Lu, Weixin Huang
分类: cs.CV
发布日期: 2026-05-20
备注: 22 pages, 16 figures, includes appendix
💡 一句话要点
提出Sketch2MinSurf,通过视觉-语言引导生成可编辑的极小曲面
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 草图建模 极小曲面 视觉-语言引导 三维重建 拓扑优化
📋 核心要点
- 现有方法难以从草图生成可编辑的非欧几里德曲面,并且难以保持拓扑一致性,限制了其在设计工作流程中的应用。
- Sketch2MinSurf结合视觉-语言引导与极小曲面理论,利用空间-拓扑编码和结构损失,生成可编辑的3D曲面。
- 实验表明,Sketch2MinSurf在拓扑相似度上优于现有方法,并能生成无伪影且可直接编辑的流形。
📝 摘要(中文)
将手绘草图转换为结构化的3D几何体仍然具有挑战性,这主要是因为难以表示非欧几里德曲面并保持拓扑一致性。现有的生成模型,如GAN、NeRF和扩散架构,通常无法直接生成可用于下游设计工作流程的可编辑流形。我们提出了Sketch2MinSurf,这是一个混合视觉-语言和几何优化框架,它将视觉-语言引导与极小曲面理论相结合,从手绘草图生成平滑且可编辑的3D曲面。我们方法的关键是一种空间-拓扑编码,它将几何体表示为节点坐标和真实/虚拟边缘骨架的元组,从而在生成过程中实现稳定的拓扑控制。我们进一步引入了Sketch2MinSurf结构损失(S2MS-Loss),这是一种奖励调节的目标,它共同约束了几何重建和拓扑一致性。在一个包含100个草图的测试集上,Sketch2MinSurf实现了0.844的拓扑相似度得分,优于现有的草图到形状的基线方法。生成的流形可以直接编辑,并且没有非流形伪影。在大学的公共艺术装置展示了该方法在人类意图驱动的3D形状生成方面的潜力。数据集和代码可在https://anonymous.4open.science/r/Sketch2MinSurf/ 获得。
🔬 方法详解
问题定义:论文旨在解决从手绘草图生成可编辑的3D极小曲面的问题。现有方法,如GAN、NeRF和扩散模型,在处理非欧几里德曲面和保持拓扑一致性方面存在困难,生成的曲面通常难以直接用于下游设计任务,存在非流形伪影。
核心思路:论文的核心思路是将视觉-语言引导与极小曲面理论相结合。通过视觉-语言模型理解草图的语义信息,并利用极小曲面理论保证生成曲面的平滑性和可编辑性。空间-拓扑编码用于表示几何体,从而实现对拓扑结构的稳定控制。
技术框架:Sketch2MinSurf框架包含以下主要模块:1) 视觉-语言编码器:用于提取草图的视觉特征和文本描述的语义信息。2) 空间-拓扑编码器:将几何体表示为节点坐标和边缘骨架的元组,编码空间和拓扑信息。3) 极小曲面生成器:基于编码后的信息,利用极小曲面理论生成3D曲面。4) 结构损失(S2MS-Loss):用于约束几何重建和拓扑一致性。
关键创新:论文的关键创新在于:1) 提出了空间-拓扑编码,能够有效地表示几何体的拓扑结构,并实现对拓扑结构的稳定控制。2) 引入了Sketch2MinSurf结构损失(S2MS-Loss),该损失函数能够同时约束几何重建和拓扑一致性,从而生成高质量的3D曲面。3) 将视觉-语言引导与极小曲面理论相结合,实现了从草图到可编辑3D曲面的生成。
关键设计:空间-拓扑编码将几何体表示为节点坐标和真实/虚拟边缘骨架的元组。S2MS-Loss是一个奖励调节的目标函数,包含几何重建损失和拓扑一致性损失。奖励信号基于生成的曲面与输入草图的相似度。具体网络结构和参数设置在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
Sketch2MinSurf在包含100个草图的测试集上实现了0.844的拓扑相似度得分,显著优于现有的草图到形状的基线方法。生成的流形可以直接编辑,并且没有非流形伪影。该方法在大学的公共艺术装置中得到了实际应用,验证了其在人类意图驱动的3D形状生成方面的潜力。
🎯 应用场景
Sketch2MinSurf具有广泛的应用前景,包括工业设计、建筑设计、艺术创作等领域。它可以帮助设计师快速将手绘草图转化为可编辑的3D模型,提高设计效率和创作自由度。此外,该方法还可以应用于虚拟现实、增强现实等领域,为用户提供更加沉浸式的体验。
📄 摘要(原文)
Converting hand-drawn sketches into structured 3D geometries remains challenging due to the difficulty of representing non-Euclidean surfaces and maintaining topological consistency. Existing generative models such as GANs, NeRFs, and diffusion architectures often fail to produce editable manifolds directly usable in downstream design workflows. We present Sketch2MinSurf, a hybrid vision-language and geometric optimization framework that integrates vision-language guidance with minimal-surface theory to generate smooth and editable 3D surfaces from hand-drawn sketches. The core of our approach is a spatial-topological encoding that represents geometry as tuples of node coordinates and real/virtual edge skeletons, enabling stable topological control during generation. We further introduce the Sketch2MinSurf Structural Loss (S2MS-Loss), a reward-modulated objective that jointly constrains geometric reconstruction and topological coherence. On a test set of 100 sketches, Sketch2MinSurf achieves a topological similarity score of 0.844, outperforming existing sketch-to-shape baselines. The generated manifolds are directly editable and free from non-manifold artifacts. A public art installation at a university showcases the method's potential for human-intent-driven 3D form generation. The dataset and code are available at https://anonymous.4open.science/r/Sketch2MinSurf/.