Reason-SVG: Hybrid Reward RL for Aha-Moments in Vector Graphics Generation

作者: Ximing Xing, Yandong Guan, Jing Zhang, Dong Xu, Qian Yu

分类: cs.CV

发布日期: 2025-05-30

备注: 17 pages, 5 figures

💡 一句话要点

Reason-SVG：利用混合奖励强化学习提升LLM在矢量图形生成中的推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 矢量图形生成 大型语言模型 强化学习 推理能力 混合奖励

📋 核心要点

现有LLM在SVG生成中面临结构有效性、语义一致性和视觉连贯性的挑战，缺乏高级推理能力。
Reason-SVG提出“Drawing-with-Thought”范式，让模型在生成SVG的同时输出设计原理，模仿人类创作过程。
通过监督微调和强化学习，Reason-SVG显著提升了LLM生成SVG的准确性和视觉效果，促进设计中的“Aha时刻”。

📝 摘要（中文）

本文提出Reason-SVG框架，旨在增强大型语言模型（LLM）在可缩放矢量图形（SVG）生成中的推理能力。Reason-SVG首创“Drawing-with-Thought”（DwT）范式，模型生成SVG代码和显式设计原理，模仿人类的创作过程。该方法采用两阶段训练策略：首先，监督微调（SFT）在DwT范式上训练LLM，激活基础推理能力；其次，利用组相对策略优化（GRPO）的强化学习（RL），通过精细的、奖励驱动的推理，使模型能够生成DwT和SVG原理。为了促进推理驱动的SVG生成，设计了一种混合奖励函数，评估DwT推理的存在性和效用，以及结构有效性、语义对齐和视觉质量。此外，还引入了SVGX-DwT-10k数据集，这是一个包含10,000个SVG-DwT对的高质量语料库，其中每个SVG代码都基于显式的DwT推理生成。通过集成DwT、SFT和混合奖励引导的RL，Reason-SVG显著提高了LLM在生成准确且具有视觉吸引力的SVG方面的性能。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在生成高质量可缩放矢量图形（SVG）时面临的推理能力不足问题。现有方法难以保证SVG的结构有效性、语义一致性和视觉连贯性，导致生成结果不理想。

核心思路：论文的核心思路是模仿人类设计师的创作过程，即在绘制图形的同时进行思考和推理。通过让模型显式地生成设计原理（DwT），可以引导模型进行更深入的推理，从而生成更准确、更符合语义和视觉要求的SVG。

技术框架：Reason-SVG采用两阶段训练框架。第一阶段是监督微调（SFT），使用SVGX-DwT-10k数据集对LLM进行训练，使其具备生成DwT的能力。第二阶段是强化学习（RL），使用组相对策略优化（GRPO）算法，通过混合奖励函数引导模型生成高质量的SVG和DwT。整体流程是：输入文本描述，LLM生成DwT和SVG代码，混合奖励函数评估生成结果，RL算法根据奖励更新模型参数。

关键创新：论文的关键创新在于“Drawing-with-Thought”（DwT）范式的引入，以及混合奖励函数的设计。DwT范式将显式推理融入到SVG生成过程中，使模型能够更好地理解和表达设计意图。混合奖励函数综合考虑了DwT推理的存在性和效用，以及SVG的结构有效性、语义对齐和视觉质量，从而更全面地评估生成结果。

关键设计：混合奖励函数是关键设计之一，它由多个部分组成，包括DwT推理奖励、结构有效性奖励、语义对齐奖励和视觉质量奖励。这些奖励项的权重需要仔细调整，以平衡不同方面的性能。此外，SVGX-DwT-10k数据集的构建也至关重要，它为模型的训练提供了高质量的SVG和DwT样本。

🖼️ 关键图片

📊 实验亮点

Reason-SVG在SVG生成任务上取得了显著的性能提升。实验结果表明，与现有方法相比，Reason-SVG在结构有效性、语义对齐和视觉质量等方面均有明显改善。具体性能数据未知，但论文强调了其在生成准确和视觉吸引力SVG方面的显著进步。

🎯 应用场景

Reason-SVG具有广泛的应用前景，可用于自动化图形设计、内容创作、教育等领域。例如，设计师可以使用该技术快速生成各种风格的矢量图形，提高工作效率。教育领域可以利用该技术生成教学素材，帮助学生更好地理解图形设计原理。未来，该技术有望进一步发展，实现更智能、更个性化的图形生成。

📄 摘要（原文）

Generating high-quality Scalable Vector Graphics (SVGs) is challenging for Large Language Models (LLMs), as it requires advanced reasoning for structural validity, semantic faithfulness, and visual coherence -- capabilities in which current LLMs often fall short. In this work, we introduce Reason-SVG, a novel framework designed to enhance LLM reasoning for SVG generation. Reason-SVG pioneers the "Drawing-with-Thought" (DwT) paradigm, in which models generate both SVG code and explicit design rationales, mimicking the human creative process. Reason-SVG adopts a two-stage training strategy: First, Supervised Fine-Tuning (SFT) trains the LLM on the DwT paradigm to activate foundational reasoning abilities. Second, Reinforcement Learning (RL), utilizing Group Relative Policy Optimization (GRPO), empowers the model to generate both DwT and SVGs rationales through refined, reward-driven reasoning. To facilitate reasoning-driven SVG generation, we design a Hybrid Reward function that evaluates the presence and utility of DwT reasoning, along with structural validity, semantic alignment, and visual quality. We also introduce the SVGX-DwT-10k dataset, a high-quality corpus of 10,000 SVG-DwT pairs, where each SVG code is generated based on explicit DwT reasoning. By integrating DwT, SFT, and Hybrid Reward-guided RL, Reason-SVG significantly improves LLM performance in generating accurate and visually compelling SVGs, potentially fostering "Aha moments" in design.

Reason-SVG: Hybrid Reward RL for Aha-Moments in Vector Graphics Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理