GraphicBench: A Planning Benchmark for Graphic Design with Language Agents
作者: Dayeon Ki, Tianyi Zhou, Marine Carpuat, Gang Wu, Puneet Mathur, Viswanathan Swaminathan
分类: cs.AI, cs.CL
发布日期: 2025-04-15
备注: 41 pages, 11 figures
💡 一句话要点
提出GraphicBench:一个用于语言代理进行图形设计的规划基准测试。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图形设计 语言代理 基准测试 大型语言模型 规划 多专家协作 自动化设计
📋 核心要点
- 现有LLM代理在创意设计任务中能力有待探索,缺乏针对开放式目标的有效评估。
- 提出GraphicBench基准测试和GraphicTown框架,包含设计专家和动作工具,模拟设计工作流。
- 实验揭示LLM在设计约束整合方面的能力,同时也暴露了空间推理、全局协调和动作选择的挑战。
📝 摘要(中文)
本文介绍了一个新的图形设计规划基准测试GraphicBench,旨在评估大型语言模型(LLM)驱动的代理在创意设计任务中的能力。GraphicBench包含1079个用户查询和输入图像,涵盖四种设计类型。此外,本文还提出了GraphicTown,一个LLM代理框架,该框架包含三个设计专家和46个动作(工具),用于在Web环境中执行规划工作流程的每个步骤。对六个LLM的实验表明,它们能够生成整合了用户查询中的显式设计约束和隐式常识约束的工作流程。然而,这些工作流程通常无法成功执行,主要原因是:(1)空间关系推理的挑战,(2)跨专家协调全局依赖关系的困难,以及(3)为每个步骤检索最合适动作的难题。GraphicBench旨在成为一个具有挑战性但有价值的测试平台,以促进LLM代理在创意设计任务中的规划和执行。
🔬 方法详解
问题定义:现有的大型语言模型在创意设计任务中的应用潜力尚未充分挖掘,尤其是在目标不明确、具有开放性的设计场景下。缺乏一个专门的基准测试来评估和比较不同LLM代理在图形设计任务中的规划和执行能力。现有的方法难以有效地整合用户提出的显式设计约束以及设计过程中隐含的常识性约束,导致设计结果不尽如人意。
核心思路:本文的核心思路是构建一个包含丰富设计案例和工具的基准测试环境,并设计一个多专家协作的代理框架,以模拟真实的设计流程。通过这个框架,可以系统地评估LLM在理解设计意图、规划设计步骤、选择合适工具以及执行设计任务方面的能力。这种方法旨在弥合LLM在理论能力和实际应用之间的差距,推动LLM在创意设计领域的应用。
技术框架:GraphicTown框架包含三个设计专家:布局专家、文本专家和图像专家。每个专家负责设计流程中的特定方面。框架包含46个动作(工具),用于在Web环境中执行设计任务。整体流程如下:首先,接收用户查询和输入图像;然后,LLM代理根据查询生成设计工作流程,该工作流程由一系列动作组成;接下来,各个设计专家协同工作,执行工作流程中的动作;最后,生成设计结果。
关键创新:该论文的关键创新在于构建了一个专门用于评估LLM代理在图形设计任务中规划和执行能力的基准测试GraphicBench,以及一个多专家协作的代理框架GraphicTown。GraphicBench提供了丰富的设计案例和工具,可以更全面地评估LLM在创意设计方面的能力。GraphicTown框架通过模拟真实的设计流程,可以更有效地利用LLM的知识和推理能力。
关键设计:GraphicBench包含1079个用户查询和输入图像,涵盖四种设计类型(海报、社交媒体帖子、演示文稿幻灯片和邀请函)。GraphicTown框架中的三个设计专家分别负责布局、文本和图像的设计。每个专家都有自己的动作空间,包含一系列可执行的动作。LLM代理需要根据用户查询和当前的设计状态,选择合适的专家和动作来执行设计任务。具体参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM能够生成整合了用户查询中的显式设计约束和隐式常识约束的工作流程。然而,这些工作流程的成功执行率较低,主要原因是空间关系推理、全局依赖关系协调和动作选择方面的挑战。具体性能数据和提升幅度在摘要中未明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于自动化图形设计、个性化内容生成、辅助设计师工作等领域。通过利用LLM代理的规划和执行能力,可以显著提高设计效率,降低设计成本,并为用户提供更加个性化的设计体验。未来,该技术有望在广告、营销、教育等领域得到广泛应用。
📄 摘要(原文)
Large Language Model (LLM)-powered agents have unlocked new possibilities for automating human tasks. While prior work has focused on well-defined tasks with specified goals, the capabilities of agents in creative design tasks with open-ended goals remain underexplored. We introduce GraphicBench, a new planning benchmark for graphic design that covers 1,079 user queries and input images across four design types. We further present GraphicTown, an LLM agent framework with three design experts and 46 actions (tools) to choose from for executing each step of the planned workflows in web environments. Experiments with six LLMs demonstrate their ability to generate workflows that integrate both explicit design constraints from user queries and implicit commonsense constraints. However, these workflows often do not lead to successful execution outcomes, primarily due to challenges in: (1) reasoning about spatial relationships, (2) coordinating global dependencies across experts, and (3) retrieving the most appropriate action per step. We envision GraphicBench as a challenging yet valuable testbed for advancing LLM-agent planning and execution in creative design tasks.