mrCAD: Multimodal Refinement of Computer-aided Designs

📄 arXiv: 2504.20294v1 📥 PDF

作者: William P. McCarthy, Saujas Vaduguru, Karl D. D. Willis, Justin Matejka, Judith E. Fan, Daniel Fried, Yewen Pu

分类: cs.AI, cs.CL, cs.HC

发布日期: 2025-04-28

备注: the first two authors contributed equally


💡 一句话要点

提出mrCAD数据集,用于多模态指令驱动的计算机辅助设计迭代优化研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 计算机辅助设计 人机协作 迭代优化 数据集 视觉语言模型

📋 核心要点

  1. 现有生成式AI在内容生成方面表现出色,但在根据语言指令修改已有输出方面存在挑战。
  2. 论文提出mrCAD数据集,包含人类玩家在CAD设计迭代优化过程中的多模态指令。
  3. 实验表明,现有VLM在遵循生成指令方面优于优化指令,揭示了多模态优化语言的特殊性。

📝 摘要(中文)

人类协作的关键在于迭代优化已交流的概念。相比之下,生成式AI擅长内容生成,但在语言引导下对其先前输出进行特定修改方面存在困难。为了弥合人类和机器在编辑执行上的差距,我们提出了mrCAD,一个通信游戏中多模态指令的数据集。在每个游戏中,玩家创建计算机辅助设计(CAD),并通过多轮迭代来匹配特定的目标设计。只有一名玩家(设计者)可以看到目标,他们必须使用文本、绘图或两者的组合来指导另一名玩家(制造者)。mrCAD包含6,082个通信游戏,15,163轮指令执行,由1,092对人类玩家完成。我们分析了该数据集,发现生成和优化指令在绘图和文本的组成上有所不同。以mrCAD任务为基准,我们发现最先进的VLM在遵循生成指令方面优于优化指令。这些结果为分析和建模先前数据集中未表示的多模态优化语言奠定了基础。

🔬 方法详解

问题定义:论文旨在解决生成式AI在语言引导下的CAD设计迭代优化问题。现有方法在处理特定语言指令修改已有设计方面存在困难,缺乏对多模态优化语言的理解和建模能力。

核心思路:论文的核心思路是通过构建一个包含人类交互的CAD设计迭代数据集mrCAD,来研究和建模多模态优化语言。通过分析人类玩家在迭代优化过程中的指令,揭示生成指令和优化指令之间的差异,并为VLM提供学习和理解优化指令的数据基础。

技术框架:mrCAD数据集的构建基于一个通信游戏,其中一名玩家(设计者)可以看到目标CAD设计,并使用文本、绘图或两者的组合来指导另一名玩家(制造者)创建和迭代CAD设计。游戏包含多轮迭代,每一轮都包含指令和执行。数据集包含6,082个通信游戏,15,163轮指令执行,由1,092对人类玩家完成。

关键创新:该论文的关键创新在于构建了一个专门用于研究多模态优化语言的CAD设计迭代数据集mrCAD。该数据集包含了人类玩家在迭代优化过程中的多模态指令,为VLM学习和理解优化指令提供了数据基础。此外,论文还分析了生成指令和优化指令之间的差异,揭示了多模态优化语言的特殊性。

关键设计:mrCAD数据集的设计考虑了以下关键因素:1) 多模态指令:允许玩家使用文本、绘图或两者的组合来表达指令。2) 迭代优化:包含多轮迭代,模拟真实的CAD设计过程。3) 人类交互:由人类玩家完成游戏,保证指令的自然性和多样性。论文未提及具体的参数设置、损失函数、网络结构等技术细节,因为重点在于数据集的构建和分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,现有最先进的VLM在遵循生成指令方面优于优化指令,这表明多模态优化语言具有其特殊性,需要专门的研究和建模。mrCAD数据集的发布为VLM学习和理解优化指令提供了宝贵的数据资源,为未来的研究奠定了基础。

🎯 应用场景

该研究成果可应用于智能设计、人机协作设计、CAD软件智能化等领域。通过学习和理解多模态优化语言,AI系统可以更好地辅助设计师进行CAD设计,提高设计效率和质量。未来,该研究有望推动CAD软件的智能化发展,实现更加自然和高效的人机交互设计。

📄 摘要(原文)

A key feature of human collaboration is the ability to iteratively refine the concepts we have communicated. In contrast, while generative AI excels at the \textit{generation} of content, it often struggles to make specific language-guided \textit{modifications} of its prior outputs. To bridge the gap between how humans and machines perform edits, we present mrCAD, a dataset of multimodal instructions in a communication game. In each game, players created computer aided designs (CADs) and refined them over several rounds to match specific target designs. Only one player, the Designer, could see the target, and they must instruct the other player, the Maker, using text, drawing, or a combination of modalities. mrCAD consists of 6,082 communication games, 15,163 instruction-execution rounds, played between 1,092 pairs of human players. We analyze the dataset and find that generation and refinement instructions differ in their composition of drawing and text. Using the mrCAD task as a benchmark, we find that state-of-the-art VLMs are better at following generation instructions than refinement instructions. These results lay a foundation for analyzing and modeling a multimodal language of refinement that is not represented in previous datasets.