GeoSVG-RL: Geometry-Aware Reinforcement Learning for Layout-Constrained Text-to-SVG Diagram Generation

📄 arXiv: 2605.25447v1 📥 PDF

作者: Sifan Li, Yujun Cai, Hongkai Chen, Yiwei Wang

分类: cs.CL

发布日期: 2026-05-25


💡 一句话要点

GeoSVG-RL:针对布局约束的文本到SVG图表生成,提出几何感知强化学习框架。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到SVG 图表生成 强化学习 几何约束 布局规划

📋 核心要点

  1. 现有大语言模型在通用向量代码生成方面表现出色,但在生成结构化、可编辑的图表时面临结构脆弱性问题。
  2. GeoSVG-RL通过引入几何感知强化学习框架,优化策略以显式几何反馈为依据,提升SVG图表的结构可靠性。
  3. 实验表明,GeoSVG-RL在箭头锚点精度、文本框内率以及图连通性保持方面显著优于现有技术水平。

📝 摘要(中文)

本文提出GeoSVG-RL,一个专为布局约束的文本到SVG生成设计的强化学习框架。不同于仅依赖token级别似然最大化的标准训练目标,该方法针对显式的、可执行的几何反馈优化策略。模型首先生成一个结构化的布局计划,作为后续SVG代码生成的几何约束。然后,通过浏览器支持的验证器渲染代码,从而计算六个关键维度上的细粒度奖励:渲染有效性、画布适配、精确锚点放置、文本包含、图一致性和代码整洁性。利用Group Relative Policy Optimization (GRPO) 优化模型,通过采样每个提示的多个候选方案,促进基于相对质量的更新。从合成数据的监督预热阶段开始,GeoSVG-RL在结构可靠性方面取得了显著提升,尤其是在箭头锚点精度和文本框内率方面。定量评估表明,该方法在局部几何精度和图连通性保持方面始终优于当前最先进的系统,为自动化且可靠的技术图示提供了一条稳健的途径。

🔬 方法详解

问题定义:当前文本到SVG图表生成方法,特别是基于大型语言模型的方法,生成的SVG文件结构脆弱,容易出现对齐错误、文本重叠、超出画布边界等问题,导致生成的图表无法在专业应用中使用。现有方法主要依赖token级别的似然最大化,缺乏对几何约束的显式优化。

核心思路:GeoSVG-RL的核心思路是引入几何感知强化学习,通过显式的几何反馈来指导SVG代码的生成。模型首先生成一个结构化的布局计划,作为几何约束,然后生成SVG代码。通过浏览器渲染SVG代码,并计算细粒度的几何奖励,从而优化生成策略。这种方法将几何约束融入到训练过程中,提高了生成SVG图表的结构可靠性。

技术框架:GeoSVG-RL框架包含以下主要阶段:1) 布局规划:模型首先生成一个结构化的布局计划,定义图表中各个元素的几何关系。2) SVG代码生成:基于布局计划,模型生成SVG代码。3) 渲染验证:使用浏览器渲染生成的SVG代码。4) 奖励计算:计算六个关键维度上的奖励,包括渲染有效性、画布适配、精确锚点放置、文本包含、图一致性和代码整洁性。5) 策略优化:使用Group Relative Policy Optimization (GRPO) 优化模型,基于相对质量更新策略。

关键创新:GeoSVG-RL的关键创新在于引入了几何感知强化学习,通过显式的几何反馈来指导SVG代码的生成。与现有方法相比,GeoSVG-RL不仅关注token级别的似然最大化,更关注生成SVG图表的几何结构和约束。此外,使用GRPO算法,通过比较多个候选方案的质量,更有效地优化策略。

关键设计:GeoSVG-RL的关键设计包括:1) 六个维度的奖励函数:渲染有效性、画布适配、精确锚点放置、文本包含、图一致性和代码整洁性。这些奖励函数能够细粒度地评估生成SVG图表的质量。2) Group Relative Policy Optimization (GRPO):GRPO通过采样多个候选方案,并基于相对质量更新策略,能够更有效地探索策略空间。3) 监督预热:使用合成数据进行监督预热,能够加速模型的训练过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GeoSVG-RL在箭头锚点精度和文本框内率方面取得了显著提升。例如,在箭头锚点精度方面,GeoSVG-RL相比现有方法提升了XX%。在文本框内率方面,GeoSVG-RL相比现有方法提升了YY%。此外,GeoSVG-RL在图连通性保持方面也表现出色,能够生成结构更可靠的SVG图表。

🎯 应用场景

GeoSVG-RL具有广泛的应用前景,可用于自动化生成技术图示、流程图、电路图等。该技术可以应用于教育、工程、科研等领域,提高图表生成效率和质量。未来,该技术可以进一步扩展到更复杂的图表类型,并与其他AI技术相结合,实现更智能化的图表生成。

📄 摘要(原文)

Generating structured, editable diagrams remains a significant challenge for contemporary large language models, despite their proficiency in general-purpose vector code generation. The primary difficulty lies in the structural fragility of the output; minor errors such as misaligned connector endpoints, text labels overlapping borders, or complex layouts drifting beyond the canvas boundaries render the resulting SVG files functionally unusable for professional applications. To address these issues, we introduce GeoSVG-RL, a specialized reinforcement learning framework designed for layout-constrained text-to-SVG generation. Unlike standard training objectives that rely solely on maximizing token-level likelihood, our approach optimizes the policy against explicit, executable geometric feedback. The model first produces a structured layout plan that serves as a geometric contract for the subsequent generation of the SVG code. This code is then rendered through a browser-backed verifier, enabling the calculation of fine-grained rewards across six critical dimensions: rendering validity, canvas fitting, precise anchor placement, text containment, graph consistency, and code cleanliness. We utilize Group Relative Policy Optimization (GRPO) to refine the model, sampling multiple candidates per prompt to facilitate updates based on relative quality. Starting from a supervised warm-start phase on synthetic data, GeoSVG-RL achieves substantial gains in structural reliability, particularly in arrow-anchor accuracy and text-in-box rates. Quantitative evaluations demonstrate that our method consistently outperforms current state-of-the-art systems in local geometric precision and the preservation of graph connectivity, providing a robust pathway toward automated yet reliable technical illustration.