KDH-CAD: Knowledge-data hybrid CAD learning under data scarcity
作者: Ziqin Gao, Zhijie Yang, Qiang Zou
分类: cs.GR, cs.LG
发布日期: 2026-06-01
备注: 18 pages
💡 一句话要点
提出KDH-CAD,一种结合知识与数据的CAD学习框架,解决数据稀缺问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: CAD学习 知识图谱 数据稀缺 预训练模型 领域知识 机械零件分类 知识校准
📋 核心要点
- CAD领域深度学习面临数据稀缺挑战,真实数据难以获取,合成数据真实性不足。
- KDH-CAD框架融合预训练模型知识、结构化领域知识和少量标注数据,实现知识补全与校准。
- 实验表明,KDH-CAD在极少量数据下达到甚至超越现有方法的效果,显著提升数据效率。
📝 摘要(中文)
计算机辅助设计(CAD)中的深度学习受到数据稀缺的根本限制:真实的CAD数据难以大规模收集,而合成数据可能无法真实反映实际设计。本文没有追求更大的CAD数据集,而是将CAD学习视为知识补全和校准问题。论文提出了KDH-CAD,一种知识-数据混合框架,集成了预训练基础模型中的知识、教科书/教程中的结构化领域知识以及少量标记的CAD数据。领域知识用于提取和补全在预训练基础模型中表达不足的CAD相关概念,而标记的CAD数据在潜在空间中校准这些概念,以适应特定任务的几何变异性,无需微调基础模型。在真实机械零件分类上的实验表明,KDH-CAD在低数据情况下表现出色,仅使用250个训练样本即可达到92.6%的准确率,使用1000个样本可达到95.8%,并随着数据的增加而持续提高。这与通常需要多一个数量级数据的最先进性能相匹配或超过。这些结果表明,将预训练的基础模型与结构化的领域知识相结合可以大大减少对大规模CAD数据集的依赖,为数据高效的CAD学习提供了一个有原则且实用的方向。
🔬 方法详解
问题定义:论文旨在解决CAD领域深度学习中数据稀缺的问题。现有方法依赖大规模CAD数据集,但真实CAD数据难以获取,合成数据又存在真实性问题,导致模型泛化能力受限。因此,如何在少量数据下实现高性能的CAD学习是本研究要解决的核心问题。
核心思路:论文的核心思路是将CAD学习视为一个知识补全和校准的过程。利用预训练模型中蕴含的通用知识,结合结构化的CAD领域知识(如教科书、教程等),来补全CAD相关概念,并使用少量标注数据对这些概念进行校准,使其适应特定任务的几何变异性。避免直接微调预训练模型,从而降低对大规模数据的依赖。
技术框架:KDH-CAD框架主要包含三个组成部分:1) 预训练基础模型:提供通用的知识表示能力;2) 结构化领域知识:用于提取和补全CAD相关的概念;3) 少量标注CAD数据:用于校准潜在空间中的概念表示,使其适应特定任务。整体流程是,首先利用领域知识增强预训练模型的表示,然后使用少量标注数据进行校准,最后进行分类等任务。
关键创新:论文的关键创新在于提出了知识-数据混合的学习范式,将结构化的领域知识引入到CAD学习中,并与预训练模型和少量标注数据相结合。这种方法避免了对大规模CAD数据集的依赖,显著提高了数据效率。与现有方法相比,KDH-CAD不是简单地依赖数据驱动,而是更加注重知识的利用和融合。
关键设计:论文中领域知识的具体表示和融合方式、以及如何利用少量标注数据进行有效校准是关键设计。具体的技术细节(如损失函数、网络结构等)在论文中可能没有详细展开,属于实现层面的细节。预训练模型选择、领域知识的提取方式、以及校准策略的选择都会影响最终的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,KDH-CAD在真实机械零件分类任务中表现出色。仅使用250个训练样本,KDH-CAD即可达到92.6%的准确率;使用1000个样本时,准确率达到95.8%。该性能与需要多一个数量级数据的现有方法相当甚至更好,证明了KDH-CAD在低数据场景下的优越性。
🎯 应用场景
KDH-CAD框架可应用于机械零件分类、CAD模型检索、智能设计等领域。该研究降低了对大规模CAD数据集的依赖,使得在数据稀缺场景下进行CAD深度学习成为可能。未来,该方法有望推广到其他工程设计领域,加速智能化设计进程,并降低研发成本。
📄 摘要(原文)
Deep learning in computer-aided design (CAD) remains fundamentally constrained by the data scarcity challenge: authentic CAD data is difficult to collect at scale, while synthetic data may not faithfully reflect real design practice. Rather than pursuing ever-larger CAD datasets, this paper alternatively treats CAD learning as a knowledge completion and calibration problem. It introduces KDH-CAD, a knowledge-data hybrid framework that integrates pretrained knowledge in foundation models, structured domain knowledge from textbooks/tutorials, and a very small amount of labeled CAD data. Domain knowledge is used to elicit and complete CAD-relevant concepts that are weakly expressed or under-represented in pretrained foundation models, while labeled CAD data calibrates these concepts in the latent space to account for task-specific geometric variability, without fine-tuning the foundation model. Experiments on real-world mechanical part classification show that KDH-CAD achieves strong performance in low-data regimes, reaching 92.6\% accuracy with only 250 training samples, 95.8\% with 1,000 samples, and continuing to improve with additional data. This matches or exceeds state-of-the-art performance that typically requires an order of magnitude more data. These results suggest that combining pretrained foundation models with structured domain knowledge can substantially reduce reliance on large-scale CAD datasets, providing a principled and practical direction for data-efficient CAD learning.