Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

作者: Haomin Wang, Qi Wei, Qianli Ma, Shengyuan Ding, Jinhui Yin, Kai Chen, Hongjie Zhang

分类: cs.CV

发布日期: 2026-03-17

💡 一句话要点

提出CTRL-S框架，通过多任务多奖励强化学习提升SVG-LLMs的推理可靠性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: SVG生成 视觉语言模型 思维链 强化学习 多任务学习 多奖励优化 矢量图形 结构化代码

📋 核心要点

现有SVG生成方法泛化能力有限，代码冗余，缺乏显式推理过程。
CTRL-S框架引入思维链机制，显式暴露模型推理过程，并生成结构化SVG代码。
实验表明，CTRL-S在任务成功率、代码质量和视觉保真度方面均优于现有方法。

📝 摘要（中文）

本文提出了一种名为CTRL-S（用于SVG的Chain-of-Thought强化学习）的统一框架，旨在通过引入思维链机制来显式地暴露SVG生成过程中模型的推理过程，从而提升SVG-LLMs的性能。为了支持这种结构化推理，作者构建了一个高质量的SVG-Sophia数据集，包含145K个样本，涵盖SVG代码优化、文本到SVG以及图像到SVG等任务。CTRL-S通过训练模型生成组级别的结构化SVG代码，显著提高了结构连贯性和视觉保真度。此外，该方法采用GRPO算法，并设计了一个多奖励优化框架，整合了DINO、图像-文本相似性、格式和代码效率奖励。通过联合多奖励优化和多任务训练，系统地增强了整体生成能力。大量实验表明，CTRL-S优于现有方法，实现了更高的任务成功率、卓越的SVG代码质量和出色的视觉保真度。

🔬 方法详解

问题定义：现有基于视觉-语言模型的SVG生成方法，虽然通过构建大规模数据集和引入SVG特定token有所改进，但仍然存在泛化能力不足、输出代码冗余以及缺乏显式推理过程的问题。这些问题限制了模型生成高质量、结构化的SVG图像的能力。

核心思路：本文的核心思路是通过引入思维链（Chain-of-Thought）机制，让模型在生成SVG代码的过程中显式地进行推理，从而提高生成结果的结构连贯性和视觉保真度。同时，采用多任务多奖励强化学习，优化模型的生成策略。

技术框架：CTRL-S框架包含以下主要组成部分：1) SVG-Sophia数据集，用于多任务训练；2) 基于思维链的SVG生成模块，显式地暴露模型的推理过程；3) 多奖励优化模块，采用GRPO算法，结合DINO、图像-文本相似性、格式和代码效率等多种奖励信号；4) 多任务训练策略，联合优化SVG代码优化、文本到SVG以及图像到SVG等任务。

关键创新：该方法最重要的创新点在于将思维链推理与强化学习相结合，用于SVG生成任务。通过显式地建模推理过程，模型能够更好地理解输入，并生成更结构化、更符合视觉要求的SVG代码。与现有方法相比，CTRL-S不仅关注最终的生成结果，更关注生成过程的合理性。

关键设计：在奖励函数设计方面，采用了DINO特征相似度来衡量生成图像与目标图像的视觉一致性，使用图像-文本相似度来衡量生成图像与输入文本的语义一致性，同时加入了格式奖励和代码效率奖励，以保证生成代码的正确性和简洁性。GRPO算法用于优化多奖励目标，平衡不同奖励之间的权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CTRL-S在SVG生成任务上显著优于现有方法。具体而言，CTRL-S在任务成功率、SVG代码质量和视觉保真度方面均取得了显著提升。例如，在图像到SVG任务上，CTRL-S的性能超过了现有最佳方法，并且生成了结构更清晰、视觉效果更好的SVG图像。

🎯 应用场景

该研究成果可应用于矢量图形编辑、自动化设计、内容生成等领域。例如，可以用于自动将草图或文本描述转换为高质量的SVG图像，提高设计效率。未来，该技术有望在数字艺术创作、UI设计、数据可视化等领域发挥重要作用。

📄 摘要（原文）

With the rapid advancement of vision-language models, an increasing number of studies have explored their potential for SVG generation tasks. Although existing approaches improve performance by constructing large-scale SVG datasets and introducing SVG-specific tokens, they still suffer from limited generalization, redundant paths in code outputs, and a lack of explicit reasoning. In this work, we present CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), a unified framework that introduces a chain-of-thought mechanism to explicitly expose the model's reasoning process during SVG generation. To support this structured reasoning, we construct SVG-Sophia, a high-quality dataset containing 145K samples across SVG code refinement, Text-to-SVG, and Image-to-SVG tasks. By training the model to generate group-level structured SVG code, CTRL-S significantly improves structural coherence and visual fidelity. Furthermore, we adopt the GRPO algorithm and design a multi-reward optimization framework, incorporating DINO, image-text similarity, format, and code efficiency rewards. Through joint multi-reward optimization and multi-task training, our approach systematically enhances overall generation capabilities. Extensive experiments show that CTRL-S outperforms existing methods, achieving higher task success rates, superior SVG code quality, and exceptional visual fidelity.

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理