Mediating Modes of Thought: LLM's for design scripting

📄 arXiv: 2411.14485v2 📥 PDF

作者: Moritz Rietschel, Fang Guo, Kyle Steinfeld

分类: cs.CL, cs.AI, cs.HC

发布日期: 2024-11-20 (更新: 2024-12-03)

备注: Published at ACADIA 2024


💡 一句话要点

利用LLM弥合设计意图与算法逻辑,实现更易用的设计脚本生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 设计脚本 参数化设计 可视化编程 自然语言处理

📋 核心要点

  1. 设计脚本的难点在于设计师的自由思维与算法的刚性之间存在差距,限制了其广泛应用。
  2. 利用LLM理解用户意图并生成几何逻辑,从而弥合用户意图与算法之间的鸿沟。
  3. 系统成功生成一定复杂度的可视化脚本,验证了LLM在设计脚本生成中的潜力,但复杂性存在上限。

📝 摘要(中文)

建筑师采用可视化脚本和参数化设计工具来探索更广阔的设计空间,完善他们对设计几何逻辑的思考,并克服传统软件的局限性。尽管在使设计脚本更易于使用方面努力了二十年,但设计师的自由思维方式与算法的刚性之间仍然存在脱节。大型语言模型(LLM)的最新发展表明,这种情况可能很快就会改变,因为LLM编码了对人类上下文的普遍理解,并表现出产生几何逻辑的能力。本项目推测,如果LLM能够有效地在用户意图和算法之间进行调解,它们将成为使设计脚本在设计中更广泛和更有趣的强大工具。我们探索了这样的系统是否可以解释自然语言提示,以组装与计算设计脚本相关的几何操作。在该系统中,配置了多层LLM代理,并具有特定的上下文,以推断用户意图并构建顺序逻辑。给定用户的高级文本提示,将创建一个几何描述,将其提炼为一系列逻辑操作,并映射到特定于软件的命令。完整的脚本在用户的可视化编程界面中构建。该系统成功生成了完整的可视化脚本,直至达到一定的复杂性,但超出了此复杂性阈值则会失败。它展示了LLM如何使设计脚本更符合人类的创造力和思想。未来的研究应探索对话式交互,扩展到多模式输入和输出,并评估这些工具的性能。

🔬 方法详解

问题定义:论文旨在解决建筑设计领域中,设计师使用参数化设计工具时,由于算法的刚性与设计师的自由思维方式不匹配,导致设计脚本难以编写和使用的难题。现有方法需要设计师具备较强的编程能力和对软件命令的深入理解,这限制了设计脚本的普及和应用。

核心思路:论文的核心思路是利用大型语言模型(LLM)作为中介,将设计师的自然语言描述转化为计算机可以理解的几何逻辑和软件命令。通过LLM对用户意图的理解和推理,自动生成设计脚本,从而降低设计脚本的编写门槛,使设计师能够更专注于设计本身。

技术框架:该系统采用多层LLM代理架构。首先,接收用户的高级文本提示;然后,利用LLM生成几何描述;接着,将几何描述提炼为一系列逻辑操作;最后,将逻辑操作映射到特定软件的命令。最终,系统在用户的可视化编程界面中构建完整的脚本。

关键创新:该论文的关键创新在于将LLM应用于设计脚本生成领域,利用LLM的自然语言理解和生成能力,实现了用户意图到算法逻辑的自动转换。与传统的手动编写脚本方式相比,该方法更加直观、高效,降低了设计脚本的编写难度。

关键设计:系统设计了多层LLM代理,每一层负责不同的任务,例如意图理解、几何描述生成、逻辑操作提炼和软件命令映射。具体的LLM选择、prompt设计和训练策略等技术细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该系统成功生成了完整的可视化脚本,验证了LLM在设计脚本生成中的可行性。实验结果表明,该系统能够处理一定复杂度的设计任务,但超出复杂性阈值则会失败。这表明LLM在设计脚本生成方面具有潜力,但仍需进一步研究和改进。

🎯 应用场景

该研究成果可应用于建筑设计、工业设计、游戏设计等领域,降低设计脚本的编写门槛,提高设计效率。未来,结合多模态输入(如草图、语音)和输出,有望实现更加智能和个性化的设计工具,促进创意产业的发展。

📄 摘要(原文)

Architects adopt visual scripting and parametric design tools to explore more expansive design spaces (Coates, 2010), refine their thinking about the geometric logic of their design (Woodbury, 2010), and overcome conventional software limitations (Burry, 2011). Despite two decades of effort to make design scripting more accessible, a disconnect between a designer's free ways of thinking and the rigidity of algorithms remains (Burry, 2011). Recent developments in Large Language Models (LLMs) suggest this might soon change, as LLMs encode a general understanding of human context and exhibit the capacity to produce geometric logic. This project speculates that if LLMs can effectively mediate between user intent and algorithms, they become a powerful tool to make scripting in design more widespread and fun. We explore if such systems can interpret natural language prompts to assemble geometric operations relevant to computational design scripting. In the system, multiple layers of LLM agents are configured with specific context to infer the user intent and construct a sequential logic. Given a user's high-level text prompt, a geometric description is created, distilled into a sequence of logic operations, and mapped to software-specific commands. The completed script is constructed in the user's visual programming interface. The system succeeds in generating complete visual scripts up to a certain complexity but fails beyond this complexity threshold. It shows how LLMs can make design scripting much more aligned with human creativity and thought. Future research should explore conversational interactions, expand to multimodal inputs and outputs, and assess the performance of these tools.