Expanding the Generative AI Design Space through Structured Prompting and Multimodal Interfaces

📄 arXiv: 2504.14320v2 📥 PDF

作者: Nimisha Karnatak, Adrien Baranes, Rob Marchant, Huinan Zeng, Tríona Butler, Kristen Olson

分类: cs.HC, cs.AI

发布日期: 2025-04-19 (更新: 2025-04-22)

备注: Accepted at CHI'25 Workshop on Designing and Developing User Interfaces with AI


💡 一句话要点

ACAI:通过结构化提示和多模态界面扩展生成式AI在广告设计中的应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式AI 多模态界面 结构化提示 人机交互 广告设计

📋 核心要点

  1. 现有基于文本提示的生成式AI工具,难以满足小型企业主在广告设计中表达品牌直觉的需求。
  2. ACAI通过结构化多模态界面,允许用户输入品牌相关上下文和视觉偏好,提升内容生成的品牌相关性。
  3. ACAI的设计旨在增强新手用户在生成内容过程中的控制力,并改善生成内容与用户意图的对齐。

📝 摘要(中文)

基于文本的提示仍然是生成式AI中主要的交互方式,但对于小型企业主(SBOs)等新手用户来说,这往往会带来困难,他们难以在广告等特定领域环境中清晰地表达创意目标。通过对英国六家SBOs的形成性研究,我们发现了三个关键挑战:难以通过提示表达品牌直觉,在内容生成期间和之后进行细粒度调整和改进的机会有限,以及频繁生成缺乏品牌特性的通用内容。为此,我们提出了ACAI(用于广告和灵感的AI协同创作),这是一种多模态生成式AI工具,旨在通过超越传统的提示界面来支持新手设计师。ACAI具有一个由三个面板组成的结构化输入系统:品牌、受众和目标,以及灵感板。这些输入允许用户传达与品牌相关的上下文和视觉偏好。这项工作通过展示结构化界面如何突出用户定义的上下文、改善对齐以及增强新手创意工作流程中的协同创作控制,从而为生成式系统的人机交互研究做出贡献。

🔬 方法详解

问题定义:论文旨在解决小型企业主在使用生成式AI进行广告设计时,难以通过传统文本提示准确表达品牌直觉、缺乏细粒度控制以及生成内容缺乏品牌特性的问题。现有方法主要依赖文本提示,对于不熟悉prompt工程的用户来说,难以有效利用,导致生成内容与用户期望不符。

核心思路:论文的核心思路是通过引入结构化的多模态界面,将用户对品牌、受众和目标的理解显式地融入到生成过程中。这种结构化输入方式旨在帮助用户更清晰地表达创意目标,并提供更细粒度的控制,从而生成更符合品牌特性的内容。

技术框架:ACAI工具包含三个主要面板:1) 品牌(Branding):允许用户输入品牌相关的文本描述和视觉参考。2) 受众(Audience)和目标(Goals):帮助用户定义目标受众和广告目标。3) 灵感板(Inspiration Board):用户可以在此上传或选择视觉灵感,引导生成过程。这些面板的输入被用于指导生成式AI模型生成广告内容。

关键创新:该论文的关键创新在于将结构化提示和多模态界面相结合,用于解决新手用户在使用生成式AI进行创意设计时面临的挑战。与传统的文本提示方法相比,ACAI允许用户更全面地表达品牌信息和设计偏好,从而提高生成内容的质量和相关性。

关键设计:ACAI的关键设计包括:1) 品牌面板:允许用户上传品牌logo、颜色方案等视觉元素,并提供文本框用于描述品牌价值观和个性。2) 受众和目标面板:提供预定义的受众画像和广告目标选项,用户也可以自定义。3) 灵感板:支持用户上传图片或从网络搜索图片,作为生成过程的视觉引导。具体的生成模型和损失函数等技术细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文通过与六家小型企业主进行的形成性研究,验证了ACAI工具的有效性。研究表明,与传统的文本提示方法相比,ACAI能够帮助用户更好地表达品牌直觉,生成更符合品牌特性的广告内容,并提高用户对生成过程的控制力。具体的性能数据未知。

🎯 应用场景

该研究成果可应用于各种创意设计领域,例如广告、营销材料、社交媒体内容等。通过结构化提示和多模态界面,可以降低生成式AI的使用门槛,使更多非专业人士能够利用AI进行创意设计,提高设计效率和质量。未来,该方法有望扩展到其他领域,例如产品设计、建筑设计等。

📄 摘要(原文)

Text-based prompting remains the predominant interaction paradigm in generative AI, yet it often introduces friction for novice users such as small business owners (SBOs), who struggle to articulate creative goals in domain-specific contexts like advertising. Through a formative study with six SBOs in the United Kingdom, we identify three key challenges: difficulties in expressing brand intuition through prompts, limited opportunities for fine-grained adjustment and refinement during and after content generation, and the frequent production of generic content that lacks brand specificity. In response, we present ACAI (AI Co-Creation for Advertising and Inspiration), a multimodal generative AI tool designed to support novice designers by moving beyond traditional prompt interfaces. ACAI features a structured input system composed of three panels: Branding, Audience and Goals, and the Inspiration Board. These inputs allow users to convey brand-relevant context and visual preferences. This work contributes to HCI research on generative systems by showing how structured interfaces can foreground user-defined context, improve alignment, and enhance co-creative control in novice creative workflows.