Symbolic Graphics Programming with Large Language Models

📄 arXiv: 2509.05208v1 📥 PDF

作者: Yamei Chen, Haoquan Zhang, Yangyi Huang, Zeju Qiu, Kaipeng Zhang, Yandong Wen, Weiyang Liu

分类: cs.CV, cs.LG

发布日期: 2025-09-05

备注: Technical report (32 pages, 12 figures, project page: https://spherelab.ai/SGP-Gen/)


💡 一句话要点

提出基于强化学习的框架,提升大语言模型生成精确可控SVG图像的能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 符号图形编程 大语言模型 强化学习 SVG生成 跨模态对齐

📋 核心要点

  1. 现有大语言模型在生成符号图形程序(SGPs)方面能力不足,尤其是在保证图像的精确性和可控性上存在挑战。
  2. 提出一种基于强化学习(RL)的框架,利用可验证的奖励机制,引导大语言模型生成符合规范且语义准确的SVG图像。
  3. 实验表明,该方法显著提升了开源大语言模型在SVG生成方面的性能,使其能够与一些前沿的专有模型相媲美。

📝 摘要(中文)

大型语言模型(LLMs)在程序合成方面表现出色,但它们生成可渲染成精确视觉内容的符号图形程序(SGPs)的能力仍未被充分探索。本文研究了符号图形编程,其目标是从自然语言描述生成SGP。此任务也提供了一个视角,通过提示LLM生成从SGP渲染的图像,来观察LLM如何理解视觉世界。在各种SGP中,本文重点关注可缩放矢量图形(SVG)。首先,我们考察LLM生成SGP的能力。为此,我们引入了SGP-GenBench,这是一个综合基准,涵盖对象保真度、场景保真度和组合性(属性绑定、空间关系、数值)。在SGP-GenBench上,我们发现前沿专有模型显著优于开源模型,并且性能与通用编码能力密切相关。受此差距的驱动,我们旨在提高LLM生成SGP的能力。我们提出了一种基于可验证奖励的强化学习(RL)方法,其中格式有效性门确保可渲染的SVG,而跨模态奖励通过强大的视觉编码器(例如,用于文本-图像的SigLIP和用于图像-图像的DINO)对齐文本和渲染图像。应用于Qwen-2.5-7B,我们的方法显著提高了SVG生成质量和语义,实现了与前沿系统相当的性能。我们进一步分析了训练动态,表明RL诱导了(i)将对象更精细地分解为可控原语,以及(ii)改善场景连贯性的上下文细节。我们的结果表明,符号图形编程为跨模态基础提供了精确且可解释的视角。

🔬 方法详解

问题定义:论文旨在解决大语言模型在符号图形编程任务中,生成高质量、语义准确的SVG图像的问题。现有方法生成的SVG图像往往存在格式错误、语义不一致等问题,难以满足对图像精确性和可控性的要求。

核心思路:论文的核心思路是利用强化学习,通过奖励机制引导大语言模型生成符合规范且语义准确的SVG代码。通过格式有效性门确保生成的SVG代码可以被正确渲染,并通过跨模态奖励对齐文本描述和渲染后的图像,从而提高生成图像的质量和语义一致性。

技术框架:整体框架包括以下几个主要模块:1) 大语言模型作为SVG代码生成器;2) 格式有效性门,用于验证生成的SVG代码是否符合规范;3) 跨模态奖励模块,利用视觉编码器(SigLIP和DINO)计算文本描述和渲染图像之间的相似度,作为奖励信号;4) 强化学习算法,用于优化大语言模型的生成策略。

关键创新:论文的关键创新在于将强化学习与可验证奖励机制相结合,用于指导大语言模型生成SVG代码。通过格式有效性门确保生成的SVG代码可以被正确渲染,并通过跨模态奖励对齐文本描述和渲染后的图像,从而显著提高了生成图像的质量和语义一致性。

关键设计:论文使用了Qwen-2.5-7B作为基础大语言模型。格式有效性门通过解析SVG代码来判断其是否符合规范。跨模态奖励模块使用了SigLIP(用于文本-图像相似度计算)和DINO(用于图像-图像相似度计算)作为视觉编码器。强化学习算法使用了标准的策略梯度方法,并对奖励信号进行了归一化处理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在SGP-GenBench基准测试中取得了显著的性能提升,尤其是在对象保真度和场景保真度方面。通过强化学习训练,Qwen-2.5-7B模型在SVG生成质量和语义上达到了与前沿专有模型相当的水平,证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于图像生成、计算机辅助设计、教育等领域。例如,用户可以通过自然语言描述快速生成所需的矢量图形,设计师可以利用该技术提高设计效率,教育者可以利用该技术辅助教学,帮助学生更好地理解几何概念。

📄 摘要(原文)

Large language models (LLMs) excel at program synthesis, yet their ability to produce symbolic graphics programs (SGPs) that render into precise visual content remains underexplored. We study symbolic graphics programming, where the goal is to generate an SGP from a natural-language description. This task also serves as a lens into how LLMs understand the visual world by prompting them to generate images rendered from SGPs. Among various SGPs, our paper sticks to scalable vector graphics (SVGs). We begin by examining the extent to which LLMs can generate SGPs. To this end, we introduce SGP-GenBench, a comprehensive benchmark covering object fidelity, scene fidelity, and compositionality (attribute binding, spatial relations, numeracy). On SGP-GenBench, we discover that frontier proprietary models substantially outperform open-source models, and performance correlates well with general coding capabilities. Motivated by this gap, we aim to improve LLMs' ability to generate SGPs. We propose a reinforcement learning (RL) with verifiable rewards approach, where a format-validity gate ensures renderable SVG, and a cross-modal reward aligns text and the rendered image via strong vision encoders (e.g., SigLIP for text-image and DINO for image-image). Applied to Qwen-2.5-7B, our method substantially improves SVG generation quality and semantics, achieving performance on par with frontier systems. We further analyze training dynamics, showing that RL induces (i) finer decomposition of objects into controllable primitives and (ii) contextual details that improve scene coherence. Our results demonstrate that symbolic graphics programming offers a precise and interpretable lens on cross-modal grounding.