NeuralSVG: An Implicit Representation for Text-to-Vector Generation
作者: Sagi Polaczek, Yuval Alaluf, Elad Richardson, Yael Vinker, Daniel Cohen-Or
分类: cs.CV
发布日期: 2025-01-07
备注: Project Page: https://sagipolaczek.github.io/NeuralSVG/
💡 一句话要点
NeuralSVG:提出一种基于隐式表达的文本到矢量图形生成方法,提升结构化和灵活性的SVG生成效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 文本到矢量图形生成 隐式神经表示 神经辐射场 分层结构 Score Distillation Sampling
📋 核心要点
- 现有文本到矢量图形生成方法存在输出过度参数化或忽略矢量图形分层结构的问题,限制了其应用。
- NeuralSVG采用隐式神经表示,将场景编码到小型MLP网络中,并利用dropout正则化鼓励生成分层结构。
- 实验结果表明,NeuralSVG在生成结构化和灵活的SVG方面优于现有方法,并支持推理时的用户控制。
📝 摘要(中文)
矢量图形在设计中至关重要,为艺术家提供了创建分辨率无关且高度可编辑视觉内容的多功能媒介。视觉语言和扩散模型方面的最新进展激发了人们对文本到矢量图形生成的研究兴趣。然而,现有方法通常存在过度参数化的输出,或者将分层结构(矢量图形的核心特征)视为次要目标,从而降低了它们的实际用途。认识到分层SVG表示的重要性,我们提出了NeuralSVG,一种用于从文本提示生成矢量图形的隐式神经表示。受到神经辐射场(NeRFs)的启发,NeuralSVG将整个场景编码到小型MLP网络的权重中,并使用Score Distillation Sampling(SDS)进行优化。为了鼓励生成的SVG中的分层结构,我们引入了一种基于dropout的正则化技术,以增强每个形状的独立含义。此外,我们证明了利用神经表示提供了一个额外的推理时控制优势,使用户能够基于用户提供的输入动态地调整生成的SVG,所有这些都使用单个学习的表示。通过广泛的定性和定量评估,我们证明了NeuralSVG在生成结构化和灵活的SVG方面优于现有方法。
🔬 方法详解
问题定义:现有文本到矢量图形生成方法的主要痛点在于:一是输出结果往往是过度参数化的,导致文件体积过大,不利于编辑和存储;二是未能充分利用矢量图形的分层结构,使得生成的图形缺乏可控性和灵活性,难以满足实际设计需求。
核心思路:NeuralSVG的核心思路是利用隐式神经表示(Implicit Neural Representation)来表示矢量图形。具体来说,它将整个SVG场景编码到一个小型多层感知机(MLP)网络的权重中。这种方式避免了显式地参数化每个形状,从而减少了参数量,并更容易实现分层结构。
技术框架:NeuralSVG的整体框架包括以下几个主要步骤:1. 文本编码:使用预训练的文本编码器(如CLIP)将文本提示转换为向量表示。2. 隐式表示:使用MLP网络将空间坐标映射到颜色和透明度值,从而定义SVG图形。3. 优化:使用Score Distillation Sampling (SDS) 损失函数,结合文本编码和扩散模型,优化MLP网络的权重。4. 分层正则化:引入基于dropout的正则化技术,鼓励网络学习分层的形状表示。
关键创新:NeuralSVG的关键创新在于:1. 隐式表示:使用隐式神经表示来表示矢量图形,减少了参数量,并更容易实现分层结构。2. 分层正则化:引入基于dropout的正则化技术,鼓励网络学习分层的形状表示,提高了生成图形的结构化程度。3. 推理时控制:利用神经表示的特性,支持推理时用户对生成图形的动态调整。
关键设计:在网络结构方面,NeuralSVG使用一个小型MLP网络,包含多个全连接层。损失函数主要由SDS损失构成,用于指导网络学习符合文本描述的图形。Dropout正则化通过随机屏蔽网络中的神经元,强制网络学习更鲁棒的形状表示。具体Dropout的比例以及MLP的层数和神经元个数等超参数需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
NeuralSVG通过定性和定量实验验证了其有效性。在结构化和灵活性方面,NeuralSVG生成的SVG图形优于现有方法。实验结果表明,NeuralSVG能够生成更清晰、更易于编辑的矢量图形,并且支持推理时的用户控制,例如调整形状的大小、位置和颜色。此外,NeuralSVG在参数量方面也具有优势,生成的SVG文件体积更小。
🎯 应用场景
NeuralSVG在设计领域具有广泛的应用前景,例如:快速生成logo、图标等矢量图形素材;辅助设计师进行创意设计,提高设计效率;为非专业人士提供便捷的矢量图形生成工具。此外,该技术还可以应用于游戏开发、动画制作等领域,生成高质量的矢量图形资源。未来,NeuralSVG有望成为一种通用的文本到矢量图形生成解决方案,推动矢量图形设计和应用的普及。
📄 摘要(原文)
Vector graphics are essential in design, providing artists with a versatile medium for creating resolution-independent and highly editable visual content. Recent advancements in vision-language and diffusion models have fueled interest in text-to-vector graphics generation. However, existing approaches often suffer from over-parameterized outputs or treat the layered structure - a core feature of vector graphics - as a secondary goal, diminishing their practical use. Recognizing the importance of layered SVG representations, we propose NeuralSVG, an implicit neural representation for generating vector graphics from text prompts. Inspired by Neural Radiance Fields (NeRFs), NeuralSVG encodes the entire scene into the weights of a small MLP network, optimized using Score Distillation Sampling (SDS). To encourage a layered structure in the generated SVG, we introduce a dropout-based regularization technique that strengthens the standalone meaning of each shape. We additionally demonstrate that utilizing a neural representation provides an added benefit of inference-time control, enabling users to dynamically adapt the generated SVG based on user-provided inputs, all with a single learned representation. Through extensive qualitative and quantitative evaluations, we demonstrate that NeuralSVG outperforms existing methods in generating structured and flexible SVG.