Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

📄 arXiv: 2603.16189v1 📥 PDF

作者: Haomin Wang, Qi Wei, Qianli Ma, Shengyuan Ding, Jinhui Yin, Kai Chen, Hongjie Zhang

分类: cs.CV

发布日期: 2026-03-17


💡 一句话要点

提出CTRL-S框架,通过多任务多奖励强化学习提升SVG-LLMs的推理可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: SVG生成 视觉语言模型 思维链 强化学习 多任务学习 多奖励优化 矢量图形 结构化代码

📋 核心要点

  1. 现有SVG生成方法泛化能力有限,代码冗余,缺乏显式推理过程。
  2. CTRL-S框架引入思维链机制,显式暴露模型推理过程,并生成结构化SVG代码。
  3. 实验表明,CTRL-S在任务成功率、代码质量和视觉保真度方面均优于现有方法。

📝 摘要(中文)

本文提出了一种名为CTRL-S(用于SVG的Chain-of-Thought强化学习)的统一框架,旨在通过引入思维链机制来显式地暴露SVG生成过程中模型的推理过程,从而提升SVG-LLMs的性能。为了支持这种结构化推理,作者构建了一个高质量的SVG-Sophia数据集,包含145K个样本,涵盖SVG代码优化、文本到SVG以及图像到SVG等任务。CTRL-S通过训练模型生成组级别的结构化SVG代码,显著提高了结构连贯性和视觉保真度。此外,该方法采用GRPO算法,并设计了一个多奖励优化框架,整合了DINO、图像-文本相似性、格式和代码效率奖励。通过联合多奖励优化和多任务训练,系统地增强了整体生成能力。大量实验表明,CTRL-S优于现有方法,实现了更高的任务成功率、卓越的SVG代码质量和出色的视觉保真度。

🔬 方法详解

问题定义:现有基于视觉-语言模型的SVG生成方法,虽然通过构建大规模数据集和引入SVG特定token有所改进,但仍然存在泛化能力不足、输出代码冗余以及缺乏显式推理过程的问题。这些问题限制了模型生成高质量、结构化的SVG图像的能力。

核心思路:本文的核心思路是通过引入思维链(Chain-of-Thought)机制,让模型在生成SVG代码的过程中显式地进行推理,从而提高生成结果的结构连贯性和视觉保真度。同时,采用多任务多奖励强化学习,优化模型的生成策略。

技术框架:CTRL-S框架包含以下主要组成部分:1) SVG-Sophia数据集,用于多任务训练;2) 基于思维链的SVG生成模块,显式地暴露模型的推理过程;3) 多奖励优化模块,采用GRPO算法,结合DINO、图像-文本相似性、格式和代码效率等多种奖励信号;4) 多任务训练策略,联合优化SVG代码优化、文本到SVG以及图像到SVG等任务。

关键创新:该方法最重要的创新点在于将思维链推理与强化学习相结合,用于SVG生成任务。通过显式地建模推理过程,模型能够更好地理解输入,并生成更结构化、更符合视觉要求的SVG代码。与现有方法相比,CTRL-S不仅关注最终的生成结果,更关注生成过程的合理性。

关键设计:在奖励函数设计方面,采用了DINO特征相似度来衡量生成图像与目标图像的视觉一致性,使用图像-文本相似度来衡量生成图像与输入文本的语义一致性,同时加入了格式奖励和代码效率奖励,以保证生成代码的正确性和简洁性。GRPO算法用于优化多奖励目标,平衡不同奖励之间的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CTRL-S在SVG生成任务上显著优于现有方法。具体而言,CTRL-S在任务成功率、SVG代码质量和视觉保真度方面均取得了显著提升。例如,在图像到SVG任务上,CTRL-S的性能超过了现有最佳方法,并且生成了结构更清晰、视觉效果更好的SVG图像。

🎯 应用场景

该研究成果可应用于矢量图形编辑、自动化设计、内容生成等领域。例如,可以用于自动将草图或文本描述转换为高质量的SVG图像,提高设计效率。未来,该技术有望在数字艺术创作、UI设计、数据可视化等领域发挥重要作用。

📄 摘要(原文)

With the rapid advancement of vision-language models, an increasing number of studies have explored their potential for SVG generation tasks. Although existing approaches improve performance by constructing large-scale SVG datasets and introducing SVG-specific tokens, they still suffer from limited generalization, redundant paths in code outputs, and a lack of explicit reasoning. In this work, we present CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), a unified framework that introduces a chain-of-thought mechanism to explicitly expose the model's reasoning process during SVG generation. To support this structured reasoning, we construct SVG-Sophia, a high-quality dataset containing 145K samples across SVG code refinement, Text-to-SVG, and Image-to-SVG tasks. By training the model to generate group-level structured SVG code, CTRL-S significantly improves structural coherence and visual fidelity. Furthermore, we adopt the GRPO algorithm and design a multi-reward optimization framework, incorporating DINO, image-text similarity, format, and code efficiency rewards. Through joint multi-reward optimization and multi-task training, our approach systematically enhances overall generation capabilities. Extensive experiments show that CTRL-S outperforms existing methods, achieving higher task success rates, superior SVG code quality, and exceptional visual fidelity.