SD-$π$XL: Generating Low-Resolution Quantized Imagery via Score Distillation
作者: Alexandre Binninger, Olga Sorkine-Hornung
分类: cs.CV, cs.GR
发布日期: 2024-10-08
备注: To be presented at SIGGRAPH Asia 2024 (conference track). Main paper is 8 pages + 2 figure-only pages + references. Supplementary is 11 pages + references
💡 一句话要点
提出SD-$π$XL,通过Score Distillation生成低分辨率量化图像,应用于像素艺术等领域。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 低分辨率图像生成 量化图像 像素艺术 Score Distillation Sampling 可微渲染
📋 核心要点
- 现有量化图像生成方法需要大量人工干预,难以自动化生成高质量结果。
- SD-$π$XL结合Score Distillation和可微图像生成器,实现基于提示词和图像的量化图像生成。
- 实验表明,SD-$π$XL在视觉效果和保真度上优于现有方法,并应用于实际制造场景。
📝 摘要(中文)
本文提出了一种名为SD-$π$XL的方法,用于生成量化的低分辨率图像。该方法利用score distillation sampling与可微图像生成器相结合,允许用户输入提示词和可选的图像进行空间条件控制,并设定期望的输出尺寸和颜色/元素调色板。生成器在$H imes W imes n$张量上操作,其中每个颜色对应一个不同的类别。通过softmax方法计算元素的凸组合,使过程可微并适用于反向传播。Gumbel-softmax重参数化技术用于生成清晰的像素艺术效果。该方法能够将输入图像转换为低分辨率量化版本,同时保留其关键语义特征。实验结果表明,SD-$π$XL在创建视觉上令人愉悦且忠实的表示方面优于当前最先进的方法。此外,该方法在互锁砖马赛克、珠饰和刺绣设计等制造应用中也展现了实用性。
🔬 方法详解
问题定义:论文旨在解决低分辨率量化图像(如像素艺术)的自动生成问题。现有方法通常需要大量手动调整,缺乏自动化和灵活性,难以满足现代应用的需求。这些应用包括视频游戏图形、数字设计和制造等,在这些领域,创造力往往受到有限的元素单元的约束。
核心思路:论文的核心思路是利用Score Distillation Sampling (SDS) 的方法,结合一个可微的图像生成器,将扩散模型的强大生成能力迁移到低分辨率量化图像的生成上。通过将图像生成过程设计为可微的,可以利用梯度信息来指导生成过程,从而实现对图像内容和风格的精确控制。
技术框架:SD-$π$XL的整体框架包括以下几个主要部分:1) 提示词和可选的图像输入;2) 可微图像生成器,该生成器接收一个$H imes W imes n$的张量作为输入,其中$H$和$W$是输出图像的尺寸,$n$是调色板中颜色的数量;3) Softmax层,用于计算颜色的凸组合,实现可微性;4) Score Distillation Sampling,利用预训练的扩散模型作为先验知识,指导生成过程。整个流程通过反向传播进行优化。
关键创新:该方法最重要的创新点在于将Score Distillation Sampling应用于低分辨率量化图像的生成,并设计了一个可微的图像生成器。通过这种方式,可以将扩散模型的强大生成能力迁移到像素艺术等领域,实现对图像内容和风格的精确控制。此外,使用Gumbel-softmax重参数化技术生成清晰的像素艺术效果也是一个关键创新。
关键设计:关键设计包括:1) 使用Softmax函数将每个像素的颜色选择表示为调色板中颜色的凸组合,从而实现可微性;2) 使用Gumbel-softmax重参数化技术,在训练过程中引入噪声,从而在推理时生成更清晰的像素艺术效果;3) 利用预训练的Stable Diffusion模型作为Score Distillation Sampling的先验知识,指导生成过程;4) 通过调整提示词和输入图像,可以控制生成图像的内容和风格。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SD-$π$XL在生成视觉上令人愉悦且忠实的低分辨率量化图像方面,显著优于当前最先进的方法。该方法能够保留输入图像的关键语义特征,并生成具有清晰像素艺术风格的图像。此外,该方法在互锁砖马赛克、珠饰和刺绣设计等制造应用中也展现了实用性,验证了其在实际应用中的价值。
🎯 应用场景
SD-$π$XL具有广泛的应用前景,包括视频游戏图形生成、数字设计、以及制造领域,例如互锁砖马赛克、珠饰和刺绣设计等。该方法可以帮助设计师快速生成各种风格的量化图像,提高设计效率和创造力。此外,该方法还可以用于将现有图像转换为低分辨率量化版本,为复古风格的设计提供便利。
📄 摘要(原文)
Low-resolution quantized imagery, such as pixel art, is seeing a revival in modern applications ranging from video game graphics to digital design and fabrication, where creativity is often bound by a limited palette of elemental units. Despite their growing popularity, the automated generation of quantized images from raw inputs remains a significant challenge, often necessitating intensive manual input. We introduce SD-$π$XL, an approach for producing quantized images that employs score distillation sampling in conjunction with a differentiable image generator. Our method enables users to input a prompt and optionally an image for spatial conditioning, set any desired output size $H \times W$, and choose a palette of $n$ colors or elements. Each color corresponds to a distinct class for our generator, which operates on an $H \times W \times n$ tensor. We adopt a softmax approach, computing a convex sum of elements, thus rendering the process differentiable and amenable to backpropagation. We show that employing Gumbel-softmax reparameterization allows for crisp pixel art effects. Unique to our method is the ability to transform input images into low-resolution, quantized versions while retaining their key semantic features. Our experiments validate SD-$π$XL's performance in creating visually pleasing and faithful representations, consistently outperforming the current state-of-the-art. Furthermore, we showcase SD-$π$XL's practical utility in fabrication through its applications in interlocking brick mosaic, beading and embroidery design.