DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance
作者: Peiying Zhang, Nanxuan Zhao, Matthew Fisher, Yiran Xu, Jing Liao, Difan Liu
分类: cs.CV
发布日期: 2025-12-11
备注: Project page: https://intchous.github.io/DuetSVG-site
💡 一句话要点
DuetSVG:提出一种统一的多模态SVG生成模型,利用内部视觉引导提升生成质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: SVG生成 多模态学习 视觉-语言模型 图像生成 矢量图形
📋 核心要点
- 现有基于VLM的SVG生成方法缺乏解码过程中的视觉信号,难以处理复杂语义,导致生成质量受限。
- DuetSVG通过联合生成图像和SVG tokens,并利用模型自身的视觉预测作为引导,提升SVG解码质量。
- 实验结果表明,DuetSVG在视觉保真度、语义对齐和语法清晰度方面均优于现有方法。
📝 摘要(中文)
本文提出了一种名为DuetSVG的统一多模态模型,用于生成SVG图像。现有的基于视觉-语言模型(VLM)的方法在SVG生成方面取得了显著成果,但由于它们仅生成文本,缺乏解码过程中的视觉信号,因此在处理复杂语义时表现不佳,难以生成视觉上吸引人或几何上连贯的SVG。DuetSVG以端到端的方式联合生成图像tokens和相应的SVG tokens,并在图像和SVG数据集上进行训练。在推理阶段,我们应用了一种新颖的测试时缩放策略,利用模型原生的视觉预测作为指导,以提高SVG解码质量。大量实验表明,我们的方法优于现有方法,可以在各种应用中生成视觉上忠实、语义对齐且语法清晰的SVG。
🔬 方法详解
问题定义:现有基于视觉-语言模型的SVG生成方法主要依赖文本生成,缺乏在解码过程中对视觉信息的有效利用。这导致模型在处理复杂场景或需要精细几何结构的SVG时,难以保证生成结果的视觉质量和几何一致性。现有方法的痛点在于缺乏视觉引导,容易产生语义不一致或视觉效果不佳的SVG图像。
核心思路:DuetSVG的核心思路是构建一个统一的多模态模型,使其能够同时生成图像tokens和SVG tokens。通过联合训练,模型可以学习到图像和SVG之间的内在联系,从而在生成SVG时能够利用视觉信息进行引导。这种方式使得模型在解码过程中能够更好地理解和表达复杂的语义信息,并生成更符合视觉感知的SVG图像。
技术框架:DuetSVG的整体框架是一个端到端的生成模型,包含一个编码器和一个解码器。编码器负责将输入的文本描述转换为潜在表示,解码器则根据该潜在表示同时生成图像tokens和SVG tokens。在训练阶段,模型同时在图像和SVG数据集上进行训练,以学习图像和SVG之间的映射关系。在推理阶段,模型首先生成图像tokens,然后利用这些图像tokens作为视觉引导,辅助SVG tokens的生成。
关键创新:DuetSVG最重要的创新点在于其统一的多模态生成框架和测试时缩放策略。该框架能够同时生成图像和SVG,从而在生成SVG时能够利用视觉信息进行引导。测试时缩放策略则进一步利用模型自身的视觉预测作为指导,提高SVG解码质量。与现有方法相比,DuetSVG能够更好地利用视觉信息,从而生成更高质量的SVG图像。
关键设计:DuetSVG的关键设计包括:1) 使用Transformer架构作为编码器和解码器;2) 设计了一种新的损失函数,用于联合训练图像和SVG生成;3) 提出了一种测试时缩放策略,用于利用模型自身的视觉预测作为指导,提高SVG解码质量。具体的网络结构和参数设置未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
DuetSVG在SVG生成任务上取得了显著的性能提升,优于现有的基于VLM的方法。通过联合生成图像和SVG tokens,并利用模型自身的视觉预测作为引导,DuetSVG能够生成视觉上忠实、语义对齐且语法清晰的SVG图像。具体的性能数据和提升幅度未在摘要中详细说明,属于未知信息。
🎯 应用场景
DuetSVG具有广泛的应用前景,包括矢量图形编辑、内容创作、计算机辅助设计等领域。它可以帮助用户快速生成高质量的SVG图像,提高工作效率和创作质量。未来,DuetSVG有望应用于自动化设计、游戏开发、虚拟现实等领域,为用户提供更加便捷和高效的图形生成工具。
📄 摘要(原文)
Recent vision-language model (VLM)-based approaches have achieved impressive results on SVG generation. However, because they generate only text and lack visual signals during decoding, they often struggle with complex semantics and fail to produce visually appealing or geometrically coherent SVGs. We introduce DuetSVG, a unified multimodal model that jointly generates image tokens and corresponding SVG tokens in an end-to-end manner. DuetSVG is trained on both image and SVG datasets. At inference, we apply a novel test-time scaling strategy that leverages the model's native visual predictions as guidance to improve SVG decoding quality. Extensive experiments show that our method outperforms existing methods, producing visually faithful, semantically aligned, and syntactically clean SVGs across a wide range of applications.