Towards Design Compositing

作者: Abhinav Mahajan, Abhikhya Tripathy, Sudeeksha Reddy Pala, Vaibhav Methi, K J Joseph, Balaji Vasan Srinivasan

分类: cs.CV

发布日期: 2026-04-16 (更新: 2026-04-17)

备注: Accepted to CVEU workshop at CVPR 2026

💡 一句话要点

提出GIST，实现设计元素风格统一与协调的无训练图像合成

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图形设计 图像合成 风格迁移 视觉和谐 无训练学习

📋 核心要点

现有图形设计方法假设输入元素风格一致，忽略了实际应用中元素来源多样导致的不协调问题。
GIST通过身份保持的风格化和合成，在布局预测和排版生成之间弥补了设计流程中风格统一的关键环节。
实验表明，GIST能显著提升现有设计流程的视觉和谐性和美学质量，并通过LLaVA-OV和GPT-4V验证。

📝 摘要（中文）

图形设计创作涉及将来自不同来源的多模态组件（如图像、文本、logo和其他视觉资产）和谐地组合成具有视觉吸引力和凝聚力的设计。现有方法主要集中在布局预测或互补元素生成上，同时完全保留输入元素，隐含地假设提供的组件在风格上已经和谐。然而，实际输入通常来自不同的来源，并且表现出视觉不匹配，这使得上述假设具有局限性。本文提出GIST，一种无需训练、保持身份的图像合成器，它位于布局预测和排版生成之间，可以无修改地插入到任何现有的组件到设计或设计改进流程中。通过将GIST与两种截然不同的现有方法LaDeCo和Design-o-meter集成，验证了GIST在视觉和谐和美学质量方面均有显著提升，并通过LLaVA-OV和GPT-4V在各个方面的评分和与朴素粘贴的成对偏好比较中得到了验证。

🔬 方法详解

问题定义：现有图形设计方法在组合来自不同来源的元素时，通常假设这些元素在风格上是和谐的。然而，实际情况往往并非如此，不同来源的元素可能存在视觉上的不匹配，导致最终设计缺乏整体性和美感。现有方法主要关注布局预测和元素生成，而忽略了对输入元素进行风格统一和协调的关键步骤。

核心思路：GIST的核心思路是在保持元素自身内容和身份信息不变的前提下，对其进行风格化处理，使其与整体设计风格相协调。通过这种方式，GIST能够弥合不同来源元素之间的视觉差异，从而提升最终设计的和谐性和美观度。GIST的设计目标是作为一个独立的模块，可以方便地集成到现有的设计流程中，而无需对现有流程进行大幅修改。

技术框架：GIST作为一个独立的图像合成器，位于布局预测和排版生成之间。其输入是来自不同来源的图像元素，输出是经过风格统一和协调的合成图像。GIST可以插入到任何现有的组件到设计或设计改进流程中，例如LaDeCo和Design-o-meter。整体流程包括：接收布局预测结果和各个设计元素，GIST对元素进行风格迁移和融合，最终生成协调的设计作品。

关键创新：GIST的关键创新在于其无需训练的身份保持风格化合成方法。与需要大量训练数据的风格迁移方法不同，GIST不需要任何训练数据，可以直接应用于各种设计元素。同时，GIST能够有效地保持元素的身份信息，避免风格化过程中的信息损失。这种无需训练和身份保持的特性使得GIST具有很强的通用性和实用性。

关键设计：GIST的具体技术细节未在摘要中详细说明，但强调了其无需训练的特性，暗示可能使用了基于图像处理或优化的方法来实现风格迁移和合成，同时设计了某种机制来保证元素身份信息的保留。具体参数设置、损失函数和网络结构等细节未知。

🖼️ 关键图片

📊 实验亮点

GIST与LaDeCo和Design-o-meter集成后，在视觉和谐和美学质量方面均有显著提升。LLaVA-OV和GPT-4V的评估结果表明，GIST在各个方面的评分均优于朴素粘贴方法，并且在成对偏好比较中也表现出明显的优势。具体的性能数据和提升幅度未知。

🎯 应用场景

GIST可广泛应用于图形设计、广告制作、社交媒体内容生成等领域。它能够帮助设计师快速生成风格统一、视觉和谐的设计作品，提高设计效率和质量。未来，GIST有望与更多AI设计工具集成，实现更智能化的设计流程，降低设计门槛，赋能更多用户。

📄 摘要（原文）

Graphic design creation involves harmoniously assembling multimodal components such as images, text, logos, and other visual assets collected from diverse sources, into a visually-appealing and cohesive design. Recent methods have largely focused on layout prediction or complementary element generation, while retaining input elements exactly, implicitly assuming that provided components are already stylistically harmonious. In practice, inputs often come from disparate sources and exhibit visual mismatch, making this assumption limiting. We argue that identity-preserving stylization and compositing of input elements is a critical missing ingredient for truly harmonized components-to-design pipelines. To this end, we propose GIST, a training-free, identity-preserving image compositor that sits between layout prediction and typography generation, and can be plugged into any existing components-to-design or design-refining pipeline without modification. We demonstrate this by integrating GIST with two substantially different existing methods, LaDeCo and Design-o-meter. GIST shows significant improvements in visual harmony and aesthetic quality across both pipelines, as validated by LLaVA-OV and GPT-4V on aspect-wise ratings and pairwise preference over naive pasting. Project Page: abhinav-mahajan10.github.io/GIST/.

Towards Design Compositing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理