POSTA: A Go-to Framework for Customized Artistic Poster Generation

📄 arXiv: 2503.14908v1 📥 PDF

作者: Haoyu Chen, Xiaojie Xu, Wenbo Li, Jingjing Ren, Tian Ye, Songhua Liu, Ying-Cong Chen, Lei Zhu, Xinchao Wang

分类: cs.GR, cs.AI, cs.CV

发布日期: 2025-03-19

备注: Accepted to CVPR 2025


💡 一句话要点

POSTA:一个用于定制艺术海报生成的通用框架,提升文本准确性和美学质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 海报生成 扩散模型 多模态学习 文本风格化 用户定制 艺术设计 深度学习

📋 核心要点

  1. 现有海报生成方法在文本准确性、用户定制和美学方面存在局限性,难以满足艺术领域的需求。
  2. POSTA框架利用扩散模型和多模态大语言模型,通过模块化设计实现可定制的艺术海报生成。
  3. 实验结果表明,POSTA在文本准确性和美学质量上优于现有模型,具有良好的可控性和设计多样性。

📝 摘要(中文)

本文提出POSTA,一个基于扩散模型和多模态大型语言模型(MLLM)的模块化框架,用于定制艺术海报生成。现有方法在文本准确性、用户定制和美学吸引力方面存在不足,限制了其在电影和展览等艺术领域的应用。POSTA框架包含三个模块:背景扩散模块根据用户输入创建主题背景;设计MLLM模块生成与背景风格对齐的布局和排版元素;ArtText扩散模块对关键文本元素应用额外的风格化。为了训练模型,作者构建了PosterArt数据集,包含高质量的艺术海报,并标注了布局、排版和像素级风格化文本分割信息。实验结果表明,POSTA在可控性和设计多样性方面表现出色,并在文本准确性和美学质量方面优于现有模型。

🔬 方法详解

问题定义:现有自动海报设计方法在文本准确性、用户定制性和美学吸引力方面存在不足。尤其是在电影、展览等艺术领域,海报既需要清晰地传递信息,又需要具有视觉冲击力,而现有方法难以兼顾这两点。因此,论文旨在解决如何生成既准确传达文本信息,又具有高度美学价值和用户可定制性的艺术海报的问题。

核心思路:论文的核心思路是将海报生成过程分解为三个可控的模块:背景生成、布局和排版设计、文本风格化。每个模块分别负责海报的不同方面,并通过扩散模型和多模态大语言模型来实现。这种模块化的设计使得用户可以对海报的各个方面进行定制,从而生成符合特定需求的艺术海报。

技术框架:POSTA框架包含三个主要模块:1) 背景扩散(Background Diffusion):根据用户提供的文本提示生成与主题相关的背景图像。2) 设计MLLM(Design MLLM):基于背景图像和用户提供的文本内容,生成海报的布局和排版元素,包括文本的位置、大小、字体等。3) ArtText扩散(ArtText Diffusion):对关键文本元素进行风格化处理,使其与海报的整体风格相协调。整个流程是模块化的,允许用户对每个模块进行定制。

关键创新:POSTA的关键创新在于其模块化的设计和对扩散模型和多模态大语言模型的有效利用。通过将海报生成过程分解为三个可控的模块,POSTA实现了高度的用户可定制性。此外,POSTA还利用扩散模型生成高质量的背景图像和风格化文本,并利用多模态大语言模型进行布局和排版设计。

关键设计:为了训练模型,作者构建了PosterArt数据集,该数据集包含高质量的艺术海报,并标注了布局、排版和像素级风格化文本分割信息。背景扩散模块使用标准的扩散模型架构,并使用文本提示作为条件。设计MLLM模块使用预训练的多模态大语言模型,并针对海报设计任务进行了微调。ArtText扩散模块也使用扩散模型架构,并使用文本内容和风格作为条件。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,POSTA在文本准确性和美学质量方面均优于现有模型。通过用户研究,证明了POSTA生成的海报在视觉吸引力方面更胜一筹。此外,消融实验验证了各个模块的有效性,证明了模块化设计的优势。具体性能数据未知,但整体效果显著。

🎯 应用场景

POSTA框架可应用于电影海报设计、展览宣传海报设计、活动推广海报设计等领域。该框架能够帮助设计师快速生成高质量、个性化的艺术海报,提高设计效率和创作灵感。未来,该技术有望扩展到更广泛的视觉内容创作领域,例如广告设计、社交媒体内容生成等。

📄 摘要(原文)

Poster design is a critical medium for visual communication. Prior work has explored automatic poster design using deep learning techniques, but these approaches lack text accuracy, user customization, and aesthetic appeal, limiting their applicability in artistic domains such as movies and exhibitions, where both clear content delivery and visual impact are essential. To address these limitations, we present POSTA: a modular framework powered by diffusion models and multimodal large language models (MLLMs) for customized artistic poster generation. The framework consists of three modules. Background Diffusion creates a themed background based on user input. Design MLLM then generates layout and typography elements that align with and complement the background style. Finally, to enhance the poster's aesthetic appeal, ArtText Diffusion applies additional stylization to key text elements. The final result is a visually cohesive and appealing poster, with a fully modular process that allows for complete customization. To train our models, we develop the PosterArt dataset, comprising high-quality artistic posters annotated with layout, typography, and pixel-level stylized text segmentation. Our comprehensive experimental analysis demonstrates POSTA's exceptional controllability and design diversity, outperforming existing models in both text accuracy and aesthetic quality.