Freehand Sketch Generation from Mechanical Components

📄 arXiv: 2408.05966v2 📥 PDF

作者: Zhichao Liao, Di Huang, Heming Fang, Yue Ma, Fengyuan Piao, Xinghui Li, Long Zeng, Pingfa Feng

分类: cs.CV, cs.AI, cs.GR, cs.MM

发布日期: 2024-08-12 (更新: 2024-08-21)

备注: Published at ACM Multimedia (ACM MM) 2024

DOI: 10.1145/3664647.3681046


💡 一句话要点

提出MSFormer以解决机械组件自由手绘草图生成问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 自由手绘草图 机械组件 生成模型 变换器 AI辅助设计 工程建模 多视角轮廓

📋 核心要点

  1. 现有方法无法生成适合数据驱动研究的自由手绘草图,导致效果不佳。
  2. 本文提出的MSFormer框架通过两阶段生成过程模拟人类绘图行为,生成机械组件的自由手绘草图。
  3. 实验结果显示,MSFormer在机械领域的草图生成上达到了最先进的性能,显著提升了生成质量。

📝 摘要(中文)

在多媒体设备上绘制机械组件的自由手绘草图已成为基于AI的工程建模的新趋势。然而,现有研究无法生成适合数据驱动研究的草图,主要是因为生成的草图缺乏自由手绘风格或使用的生成模型并非专为此任务设计,导致效果不佳。为了解决这一问题,本文设计了一种模仿人类绘图行为模式的两阶段生成框架MSFormer,这是首次针对机械组件生成类人自由手绘草图。第一阶段利用Open CASCADE技术获取机械组件的多视角轮廓草图,并设计视角选择器以模拟人类绘图时的视角选择任务。第二阶段通过基于变换器的生成器将轮廓草图转换为自由手绘草图。我们引入了一种新颖的边缘约束笔画初始化方法,以尽可能保留重要建模特征并合理化笔画分布。实验结果表明,该方法在机械领域的自由手绘草图生成上达到了最先进的性能。

🔬 方法详解

问题定义:本文旨在解决现有生成模型无法有效生成机械组件自由手绘草图的问题。现有方法要么缺乏自由手绘风格,要么使用不适合的生成模型,导致生成效果不佳。

核心思路:论文提出的MSFormer框架通过模仿人类的绘图行为,采用两阶段生成策略,首先生成多视角轮廓草图,然后将其转换为自由手绘草图,以提高生成质量和风格一致性。

技术框架:MSFormer的整体架构分为两个主要阶段:第一阶段使用Open CASCADE技术获取多视角轮廓草图,并通过视角选择器选择信息丰富的草图;第二阶段则利用基于变换器的生成器将轮廓草图转换为自由手绘草图。

关键创新:最重要的技术创新在于引入了边缘约束笔画初始化方法,这一方法能够有效保留建模特征并优化笔画分布,显著提升了生成草图的质量。

关键设计:在模型设计中,采用了CLIP视觉编码器和结合Hausdorff距离的新损失函数,以增强模型的泛化能力和鲁棒性,同时确保生成草图的风格和质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MSFormer在机械领域的自由手绘草图生成上达到了最先进的性能,相较于基线方法,生成质量显著提升,具体性能数据未提供,但实验表明其在多视角草图生成和风格一致性方面表现优异。

🎯 应用场景

该研究的潜在应用领域包括机械设计、工程建模和教育等。通过生成高质量的自由手绘草图,能够帮助工程师和设计师更高效地进行创意表达和设计迭代,提升设计过程的灵活性和创新性。未来,该技术有望在更广泛的领域中推广应用,推动AI辅助设计的发展。

📄 摘要(原文)

Drawing freehand sketches of mechanical components on multimedia devices for AI-based engineering modeling has become a new trend. However, its development is being impeded because existing works cannot produce suitable sketches for data-driven research. These works either generate sketches lacking a freehand style or utilize generative models not originally designed for this task resulting in poor effectiveness. To address this issue, we design a two-stage generative framework mimicking the human sketching behavior pattern, called MSFormer, which is the first time to produce humanoid freehand sketches tailored for mechanical components. The first stage employs Open CASCADE technology to obtain multi-view contour sketches from mechanical components, filtering perturbing signals for the ensuing generation process. Meanwhile, we design a view selector to simulate viewpoint selection tasks during human sketching for picking out information-rich sketches. The second stage translates contour sketches into freehand sketches by a transformer-based generator. To retain essential modeling features as much as possible and rationalize stroke distribution, we introduce a novel edge-constraint stroke initialization. Furthermore, we utilize a CLIP vision encoder and a new loss function incorporating the Hausdorff distance to enhance the generalizability and robustness of the model. Extensive experiments demonstrate that our approach achieves state-of-the-art performance for generating freehand sketches in the mechanical domain. Project page: https://mcfreeskegen.github.io .