neuralCAD-Edit: An Expert Benchmark for Multimodal-Instructed 3D CAD Model Editing
作者: Toby Perrett, Matthew Bouchard, William McCarthy
分类: cs.CV, cs.CE
发布日期: 2026-04-17
备注: Project page: https://autodeskailab.github.io/neuralCAD-Edit
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出neuralCAD-Edit:一个面向多模态指令的3D CAD模型编辑专家基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: CAD模型编辑 多模态学习 基准数据集 人机交互 计算机辅助设计
📋 核心要点
- 现有CAD模型编辑方法主要依赖文本指令,缺乏真实场景下的多模态交互数据。
- neuralCAD-Edit通过捕捉专家设计师在CAD软件中的操作视频,构建了更贴近实际应用场景的基准数据集。
- 实验表明,现有领先的基础模型在neuralCAD-Edit基准上与人类专家相比存在显著差距,凸显了该任务的挑战性。
📝 摘要(中文)
本文提出了neuralCAD-Edit,这是首个由专业CAD工程师提供的3D CAD模型编辑基准。与以往基于文本条件的方法不同,本文通过捕捉专业设计师在CAD软件中直接与CAD模型交互(包括说话、指点和绘图)的视频,收集了真实的CAD编辑请求。研究招募了十位设计师参与这项研究。通过将领先的基础模型与执行编辑任务的人工CAD专家进行对比,发现自动指标和人工评估都存在很大的性能差距。即使是最好的基础模型(GPT 5.2)在人工验收试验中的得分也比CAD专家低53%(绝对值),这表明了neuralCAD-Edit的挑战性。希望neuralCAD-Edit能为3D CAD编辑方法和基础模型的发展提供坚实的基础。
🔬 方法详解
问题定义:现有3D CAD模型编辑方法主要依赖文本指令,这与实际CAD设计过程存在较大差异。真实的设计过程往往涉及语音交流、手势指示和草图绘制等多种模态的交互。因此,如何利用多模态信息进行CAD模型编辑是一个重要的研究问题。现有方法的痛点在于缺乏真实的多模态CAD编辑数据,难以训练和评估模型。
核心思路:本文的核心思路是构建一个更贴近真实CAD设计场景的基准数据集,该数据集包含CAD专家在进行CAD模型编辑时的多模态交互数据,包括视频、语音和CAD操作记录。通过这个数据集,可以更有效地评估和提升多模态CAD模型编辑算法的性能。
技术框架:neuralCAD-Edit基准数据集的构建流程主要包括以下几个阶段: 1. 招募专业的CAD设计师。 2. 提供CAD模型和编辑任务。 3. 记录设计师在CAD软件中的操作视频,包括语音、手势和绘图等信息。 4. 收集CAD操作记录。 5. 对数据进行清洗和标注。
关键创新:该论文的关键创新在于构建了一个真实的多模态CAD模型编辑基准数据集,该数据集包含了CAD专家在实际设计过程中的交互数据,这与以往基于文本指令的CAD模型编辑数据集有本质区别。该数据集能够更有效地评估和提升多模态CAD模型编辑算法的性能。
关键设计:在数据收集过程中,研究人员特别关注以下几个关键设计: 1. 确保参与的设计师具有专业的CAD设计经验。 2. 提供的CAD模型和编辑任务具有代表性和挑战性。 3. 采用高质量的视频和音频设备记录设计师的操作过程。 4. 对收集到的数据进行严格的清洗和标注,确保数据的质量和可用性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最好的基础模型(GPT 5.2)在人工验收试验中的得分也比CAD专家低53%(绝对值)。这表明现有模型在处理复杂的多模态CAD编辑任务时仍存在很大的差距,凸显了neuralCAD-Edit基准的挑战性和价值。该基准可以作为未来多模态CAD模型编辑算法的重要评估工具。
🎯 应用场景
该研究成果可应用于智能CAD设计辅助系统、人机协作设计平台等领域。通过利用多模态信息,可以实现更自然、更高效的CAD模型编辑。未来,该研究有望推动CAD设计自动化和智能化发展,提高设计效率和质量,降低设计成本。
📄 摘要(原文)
We introduce neuralCAD-Edit, the first benchmark for editing 3D CAD models collected from expert CAD engineers. Instead of text conditioning as in prior works, we collect realistic CAD editing requests by capturing videos of professional designers, interacting directly with CAD models in CAD software, while talking, pointing and drawing. We recruited ten consenting designers to contribute to this contained study. We benchmark leading foundation models against human CAD experts carrying out edits, and find a large performance gap in both automatic metrics and human evaluations. Even the best foundation model (GPT 5.2) scores 53% lower (absolute) than CAD experts in human acceptance trials, demonstrating the challenge of neuralCAD-Edit. We hope neuralCAD-Edit will provide a solid foundation against which 3D CAD editing approaches and foundation models can be developed. Code/data: https://autodeskailab.github.io/neuralCAD-Edit