SD-$π$XL: Generating Low-Resolution Quantized Imagery via Score Distillation

作者: Alexandre Binninger, Olga Sorkine-Hornung

分类: cs.CV, cs.GR

发布日期: 2024-10-08

备注: To be presented at SIGGRAPH Asia 2024 (conference track). Main paper is 8 pages + 2 figure-only pages + references. Supplementary is 11 pages + references

DOI: 10.1145/3680528.3687570

💡 一句话要点

提出SD-$π$XL，通过Score Distillation生成低分辨率量化图像，应用于像素艺术等领域。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 低分辨率图像生成 量化图像 像素艺术 Score Distillation Sampling 可微渲染

📋 核心要点

现有量化图像生成方法需要大量人工干预，难以自动化生成高质量结果。
SD-$π$XL结合Score Distillation和可微图像生成器，实现基于提示词和图像的量化图像生成。
实验表明，SD-$π$XL在视觉效果和保真度上优于现有方法，并应用于实际制造场景。

📝 摘要（中文）

本文提出了一种名为SD-$π$XL的方法，用于生成量化的低分辨率图像。该方法利用score distillation sampling与可微图像生成器相结合，允许用户输入提示词和可选的图像进行空间条件控制，并设定期望的输出尺寸和颜色/元素调色板。生成器在$H imes W imes n$张量上操作，其中每个颜色对应一个不同的类别。通过softmax方法计算元素的凸组合，使过程可微并适用于反向传播。Gumbel-softmax重参数化技术用于生成清晰的像素艺术效果。该方法能够将输入图像转换为低分辨率量化版本，同时保留其关键语义特征。实验结果表明，SD-$π$XL在创建视觉上令人愉悦且忠实的表示方面优于当前最先进的方法。此外，该方法在互锁砖马赛克、珠饰和刺绣设计等制造应用中也展现了实用性。

🔬 方法详解

问题定义：论文旨在解决低分辨率量化图像（如像素艺术）的自动生成问题。现有方法通常需要大量手动调整，缺乏自动化和灵活性，难以满足现代应用的需求。这些应用包括视频游戏图形、数字设计和制造等，在这些领域，创造力往往受到有限的元素单元的约束。

核心思路：论文的核心思路是利用Score Distillation Sampling (SDS) 的方法，结合一个可微的图像生成器，将扩散模型的强大生成能力迁移到低分辨率量化图像的生成上。通过将图像生成过程设计为可微的，可以利用梯度信息来指导生成过程，从而实现对图像内容和风格的精确控制。

技术框架：SD-$π$XL的整体框架包括以下几个主要部分：1) 提示词和可选的图像输入；2) 可微图像生成器，该生成器接收一个$H imes W imes n$的张量作为输入，其中$H$和$W$是输出图像的尺寸，$n$是调色板中颜色的数量；3) Softmax层，用于计算颜色的凸组合，实现可微性；4) Score Distillation Sampling，利用预训练的扩散模型作为先验知识，指导生成过程。整个流程通过反向传播进行优化。

关键创新：该方法最重要的创新点在于将Score Distillation Sampling应用于低分辨率量化图像的生成，并设计了一个可微的图像生成器。通过这种方式，可以将扩散模型的强大生成能力迁移到像素艺术等领域，实现对图像内容和风格的精确控制。此外，使用Gumbel-softmax重参数化技术生成清晰的像素艺术效果也是一个关键创新。

关键设计：关键设计包括：1) 使用Softmax函数将每个像素的颜色选择表示为调色板中颜色的凸组合，从而实现可微性；2) 使用Gumbel-softmax重参数化技术，在训练过程中引入噪声，从而在推理时生成更清晰的像素艺术效果；3) 利用预训练的Stable Diffusion模型作为Score Distillation Sampling的先验知识，指导生成过程；4) 通过调整提示词和输入图像，可以控制生成图像的内容和风格。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SD-$π$XL在生成视觉上令人愉悦且忠实的低分辨率量化图像方面，显著优于当前最先进的方法。该方法能够保留输入图像的关键语义特征，并生成具有清晰像素艺术风格的图像。此外，该方法在互锁砖马赛克、珠饰和刺绣设计等制造应用中也展现了实用性，验证了其在实际应用中的价值。

🎯 应用场景

SD-$π$XL具有广泛的应用前景，包括视频游戏图形生成、数字设计、以及制造领域，例如互锁砖马赛克、珠饰和刺绣设计等。该方法可以帮助设计师快速生成各种风格的量化图像，提高设计效率和创造力。此外，该方法还可以用于将现有图像转换为低分辨率量化版本，为复古风格的设计提供便利。

📄 摘要（原文）

Low-resolution quantized imagery, such as pixel art, is seeing a revival in modern applications ranging from video game graphics to digital design and fabrication, where creativity is often bound by a limited palette of elemental units. Despite their growing popularity, the automated generation of quantized images from raw inputs remains a significant challenge, often necessitating intensive manual input. We introduce SD-$π$XL, an approach for producing quantized images that employs score distillation sampling in conjunction with a differentiable image generator. Our method enables users to input a prompt and optionally an image for spatial conditioning, set any desired output size $H \times W$, and choose a palette of $n$ colors or elements. Each color corresponds to a distinct class for our generator, which operates on an $H \times W \times n$ tensor. We adopt a softmax approach, computing a convex sum of elements, thus rendering the process differentiable and amenable to backpropagation. We show that employing Gumbel-softmax reparameterization allows for crisp pixel art effects. Unique to our method is the ability to transform input images into low-resolution, quantized versions while retaining their key semantic features. Our experiments validate SD-$π$XL's performance in creating visually pleasing and faithful representations, consistently outperforming the current state-of-the-art. Furthermore, we showcase SD-$π$XL's practical utility in fabrication through its applications in interlocking brick mosaic, beading and embroidery design.

SD-$π$XL: Generating Low-Resolution Quantized Imagery via Score Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理