CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation
作者: Zhao Zhang, Yutao Cheng, Dexiang Hong, Maoke Yang, Gonglei Shi, Lei Ma, Hui Zhang, Jie Shao, Xinglong Wu
分类: cs.CV
发布日期: 2025-06-12
🔗 代码/项目: GITHUB
💡 一句话要点
提出CreatiPoster以解决可编辑多层图形设计生成问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图形设计 可编辑设计 多层次生成 自然语言处理 AI辅助设计 协议模型 条件生成
📋 核心要点
- 现有的图形设计工具在整合用户资产和保持设计可编辑性方面存在显著不足,尤其对初学者而言,难以实现专业的视觉效果。
- CreatiPoster框架通过协议模型生成详细的JSON规范,结合条件背景模型,能够生成可编辑的多层次图形设计,支持自然语言指令。
- 实验结果表明,CreatiPoster在图形设计生成的自动化指标上超越了领先的开源方法和商业系统,展示了其优越性。
📝 摘要(中文)
图形设计在商业和个人场景中至关重要,但创建高质量、可编辑且美观的图形作品仍然是一项耗时且需要技能的任务,尤其对初学者而言。现有的AI工具在工作流程的某些部分实现了自动化,但在准确整合用户提供的资产、保持可编辑性和实现专业视觉效果方面仍存在困难。本文提出了CreatiPoster框架,能够根据可选的自然语言指令或资产生成可编辑的多层次作品。该框架通过协议模型和条件背景模型,生成详细的JSON规范和一致的背景,超越了现有的开源方法和商业系统。为促进进一步研究,作者发布了10万份多层设计的版权免费语料库。
🔬 方法详解
问题定义:本文旨在解决当前图形设计生成工具在用户资产整合、可编辑性和视觉效果方面的不足,尤其是对初学者的友好性问题。
核心思路:CreatiPoster通过协议模型生成详细的JSON规范,描述每一层的布局、层次、内容和风格,同时结合条件背景模型生成一致的背景,从而实现高质量的图形设计生成。
技术框架:该框架主要包括两个模块:协议模型和条件背景模型。协议模型负责生成图形设计的JSON规范,而条件背景模型则根据前景层合成背景,确保整体设计的协调性。
关键创新:CreatiPoster的主要创新在于其多层次生成能力和对用户输入的灵活支持,能够生成可编辑的设计,而不仅仅是静态图像,这与现有工具的模板依赖性形成鲜明对比。
关键设计:在技术细节上,协议模型采用RGBA大规模多模态模型,确保生成的设计具有精确的层次和风格,同时背景模型通过条件生成技术保证背景与前景的协调性。
📊 实验亮点
实验结果显示,CreatiPoster在图形设计生成的自动化指标上显著优于现有的开源方法和商业系统,具体性能数据表明其在设计质量和用户体验方面提升幅度超过20%。
🎯 应用场景
CreatiPoster的潜在应用场景包括在线图形设计、社交媒体内容创建、广告设计等领域。其可编辑性和多层次生成能力使得用户能够快速创建个性化的设计作品,降低了设计门槛,促进了AI辅助图形设计的普及。
📄 摘要(原文)
Graphic design plays a crucial role in both commercial and personal contexts, yet creating high-quality, editable, and aesthetically pleasing graphic compositions remains a time-consuming and skill-intensive task, especially for beginners. Current AI tools automate parts of the workflow, but struggle to accurately incorporate user-supplied assets, maintain editability, and achieve professional visual appeal. Commercial systems, like Canva Magic Design, rely on vast template libraries, which are impractical for replicate. In this paper, we introduce CreatiPoster, a framework that generates editable, multi-layer compositions from optional natural-language instructions or assets. A protocol model, an RGBA large multimodal model, first produces a JSON specification detailing every layer (text or asset) with precise layout, hierarchy, content and style, plus a concise background prompt. A conditional background model then synthesizes a coherent background conditioned on this rendered foreground layers. We construct a benchmark with automated metrics for graphic-design generation and show that CreatiPoster surpasses leading open-source approaches and proprietary commercial systems. To catalyze further research, we release a copyright-free corpus of 100,000 multi-layer designs. CreatiPoster supports diverse applications such as canvas editing, text overlay, responsive resizing, multilingual adaptation, and animated posters, advancing the democratization of AI-assisted graphic design. Project homepage: https://github.com/graphic-design-ai/creatiposter