Enginuity: Building an Open Multi-Domain Dataset of Complex Engineering Diagrams
作者: Ethan Seefried, Prahitha Movva, Naga Harshita Marupaka, Tilak Kasturi, Tirthankar Ghosal
分类: cs.CV
发布日期: 2026-01-19
备注: Accepted at the 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Ai4 Science
💡 一句话要点
Enginuity:构建大规模开放多领域工程图数据集,促进图解析与AI辅助工程
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工程图数据集 结构化标注 多领域 图解析 人工智能辅助工程
📋 核心要点
- 现有AI系统在理解和利用工程图中蕴含的视觉结构知识方面存在不足,阻碍了其在科学工作流程中的应用。
- Enginuity数据集旨在通过提供大规模、多领域、带有结构化标注的工程图数据,赋能AI系统理解和解析工程图。
- 该数据集支持结构化图解析、跨模态信息检索和AI辅助工程仿真等下游任务,有望促进AI在科学发现领域的应用。
📝 摘要(中文)
我们提出了Enginuity——首个开放、大规模、多领域的工程图数据集,它带有全面的结构化标注,专为自动化图解析而设计。通过捕获跨不同工程领域的层级组件关系、连接和语义元素,我们提出的数据集将使多模态大型语言模型能够解决关键的下游任务,包括结构化图解析、跨模态信息检索和AI辅助工程仿真。Enginuity将通过使人工智能系统能够理解和操纵嵌入在工程图中的视觉结构知识,从而变革科学发现的人工智能,打破了当前阻止人工智能充分参与科学工作流程的基本障碍,在这些工作流程中,图解释、技术图纸分析和视觉推理对于假设生成、实验设计和发现至关重要。
🔬 方法详解
问题定义:现有方法在理解和解析复杂的工程图方面面临挑战。工程图包含丰富的结构化信息,例如组件之间的层级关系和连接方式,而现有数据集和模型难以有效地捕获和利用这些信息。这阻碍了AI在需要理解和操纵工程图的科学工作流程中的应用,例如假设生成、实验设计和发现。
核心思路:Enginuity数据集的核心思路是提供一个大规模、多领域、带有全面结构化标注的工程图数据集,从而赋能AI系统学习工程图的结构化表示。通过学习这些表示,AI系统可以更好地理解和解析工程图,并执行各种下游任务。
技术框架:Enginuity数据集包含来自多个工程领域的工程图,例如电气工程、机械工程和化学工程。每个工程图都带有详细的结构化标注,包括组件的边界框、组件之间的连接关系以及组件的语义信息。数据集的设计考虑了不同工程领域的特点,并提供了统一的标注格式,方便研究人员使用。
关键创新:Enginuity数据集的关键创新在于其规模、多样性和结构化标注。它是首个大规模、多领域的工程图数据集,涵盖了各种工程领域和图类型。此外,数据集还提供了全面的结构化标注,包括组件的层级关系、连接关系和语义信息,这使得AI系统能够更好地理解和解析工程图。
关键设计:数据集的标注过程采用了人工标注和自动标注相结合的方式。首先,由专业的标注人员对工程图进行人工标注,然后使用自动标注算法对标注结果进行修正和补充。为了保证标注质量,数据集还采用了多轮审核机制,确保标注的准确性和一致性。数据集的划分方式也经过精心设计,以保证训练集、验证集和测试集的分布一致性。
📊 实验亮点
由于论文主要贡献在于数据集的构建,因此实验亮点体现在数据集本身的规模和质量上。Enginuity是首个开放、大规模、多领域的工程图数据集,包含大量带有结构化标注的工程图。具体性能数据未知,但数据集的多样性和标注质量为后续研究提供了坚实的基础,有望推动相关领域的发展。
🎯 应用场景
Enginuity数据集的应用场景广泛,包括AI辅助工程设计、自动化图纸分析、跨模态信息检索和智能制造等。例如,可以利用该数据集训练AI模型,自动识别工程图中的组件和连接关系,从而辅助工程师进行设计和分析。此外,还可以将工程图与文本描述相结合,实现跨模态信息检索,帮助用户快速找到所需的信息。该数据集还有望促进AI在科学发现领域的应用,例如辅助科学家进行实验设计和假设生成。
📄 摘要(原文)
We propose Enginuity - the first open, large-scale, multi-domain engineering diagram dataset with comprehensive structural annotations designed for automated diagram parsing. By capturing hierarchical component relationships, connections, and semantic elements across diverse engineering domains, our proposed dataset would enable multimodal large language models to address critical downstream tasks including structured diagram parsing, cross-modal information retrieval, and AI-assisted engineering simulation. Enginuity would be transformative for AI for Scientific Discovery by enabling artificial intelligence systems to comprehend and manipulate the visual-structural knowledge embedded in engineering diagrams, breaking down a fundamental barrier that currently prevents AI from fully participating in scientific workflows where diagram interpretation, technical drawing analysis, and visual reasoning are essential for hypothesis generation, experimental design, and discovery.