Render-in-the-Loop: Vector Graphics Generation via Visual Self-Feedback
作者: Guotao Liang, Zhangcheng Wang, Juncheng Hu, Haitao Zhou, Ziteng Xue, Jing Zhang, Dong Xu, Qian Yu
分类: cs.CV
发布日期: 2026-04-22
💡 一句话要点
提出Render-in-the-Loop,通过视觉自反馈提升矢量图形生成质量
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 矢量图形生成 视觉自反馈 多模态学习 可缩放矢量图形 Render-in-the-Loop
📋 核心要点
- 现有SVG生成方法缺乏对中间视觉结果的感知,导致模型难以处理画布状态和遮挡关系。
- Render-in-the-Loop通过渲染中间代码状态,使模型能够观察视觉上下文并利用视觉反馈指导生成。
- 该方法结合视觉自反馈训练和渲染验证推理,在MMSVGBench上超越了现有基线模型。
📝 摘要(中文)
多模态大型语言模型(MLLM)在通过直接代码合成生成可缩放矢量图形(SVG)方面表现出潜力。然而,现有方法通常采用开放循环的“盲绘”方式,模型在不感知中间视觉结果的情况下生成符号代码序列。这种方法严重低估了MLLM视觉编码器中嵌入的强大视觉先验,将SVG生成视为一个分离的文本序列建模任务,而不是一个集成的视觉空间任务。因此,模型难以推理部分画布状态和隐式遮挡关系,这些关系在视觉上是显式的,但在文本上是模糊的。为了弥补这一差距,我们提出Render-in-the-Loop,一种新颖的生成范式,将SVG合成重构为一个逐步的、视觉上下文感知的过程。通过将中间代码状态渲染为累积画布,模型显式地观察每一步演变的视觉上下文,利用即时反馈来指导后续生成。然而,我们证明,由于现有模型无法利用增量视觉-代码映射,因此将这种视觉循环天真地应用于现有模型是次优的。为了解决这个问题,我们首先利用细粒度的路径分解来构建密集的、多步骤的视觉轨迹,然后引入视觉自反馈(VSF)训练策略,以中间视觉状态为条件生成下一个图元。此外,提出了一种渲染和验证(RaV)推理机制,以有效地过滤退化和冗余的图元。我们的框架在多模态基础模型上实例化,在标准MMSVGBench上优于强大的开放权重基线。这一结果突出了我们的Render-in-the-Loop范式在文本到SVG和图像到SVG任务中的显著数据效率和泛化能力。
🔬 方法详解
问题定义:现有基于多模态大语言模型(MLLM)的SVG生成方法,采用“盲绘”式的开放循环策略,忽略了生成过程中的视觉信息反馈。模型无法感知中间画布状态和元素间的遮挡关系,导致生成质量受限,尤其是在复杂图形的生成中。现有方法将SVG生成视为纯粹的文本序列建模问题,未能充分利用MLLM的视觉编码能力。
核心思路:Render-in-the-Loop的核心思想是将SVG生成过程转化为一个迭代的、视觉上下文感知的过程。通过在每一步生成后渲染当前的SVG代码,模型可以观察到画布的视觉状态,并利用这些视觉信息来指导下一步的生成。这种视觉反馈机制使得模型能够更好地理解画布状态、元素间的关系,从而生成更准确、更复杂的SVG图形。
技术框架:Render-in-the-Loop框架主要包含三个关键组成部分:1) 细粒度路径分解:将复杂的SVG路径分解为多个简单的图元,从而构建密集的视觉轨迹。2) 视觉自反馈(VSF)训练:利用中间视觉状态作为条件,训练模型生成下一个图元。3) 渲染和验证(RaV)推理:在推理阶段,渲染生成的SVG代码,并验证其质量,过滤掉退化和冗余的图元。整体流程为:输入文本或图像描述 -> MLLM生成SVG代码片段 -> 渲染SVG代码片段到画布 -> 将画布图像输入MLLM,指导下一步生成 -> 重复上述步骤,直到生成完整的SVG图形 -> 使用RaV进行验证和过滤。
关键创新:该方法最重要的创新点在于引入了视觉自反馈机制,将SVG生成过程从一个开放循环的文本序列建模问题,转化为一个闭环的视觉-文本交互问题。通过让模型在生成过程中不断观察和利用视觉信息,提高了模型对画布状态和元素关系的理解能力,从而提升了SVG生成的质量和效率。
关键设计:在视觉自反馈训练中,使用了细粒度的路径分解,将复杂的SVG路径分解为多个简单的图元,从而构建了密集的视觉轨迹。这使得模型能够更好地学习视觉状态和代码之间的映射关系。渲染和验证(RaV)推理机制通过计算渲染图像的质量指标(例如清晰度、完整性),来过滤掉退化和冗余的图元,进一步提升了生成质量。损失函数方面,可能采用了交叉熵损失或类似的序列生成损失函数,以优化模型生成SVG代码的准确性。具体网络结构细节取决于所使用的MLLM基础模型。
🖼️ 关键图片
📊 实验亮点
Render-in-the-Loop在MMSVGBench基准测试中取得了显著的性能提升,超越了现有的开放权重基线模型。实验结果表明,该方法在文本到SVG和图像到SVG任务中均表现出优异的性能,验证了其数据效率和泛化能力。具体的性能提升幅度需要参考论文中的详细数据。
🎯 应用场景
Render-in-the-Loop在矢量图形生成领域具有广泛的应用前景,例如:自动化图标设计、艺术创作辅助、数据可视化、以及用户界面设计等。该方法能够降低矢量图形创作的门槛,提高创作效率,并为非专业人士提供更便捷的创作工具。未来,该技术有望应用于更复杂的图形设计和动画制作领域。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have shown promising capabilities in generating Scalable Vector Graphics (SVG) via direct code synthesis. However, existing paradigms typically adopt an open-loop "blind drawing" approach, where models generate symbolic code sequences without perceiving intermediate visual outcomes. This methodology severely underutilizes the powerful visual priors embedded in MLLMs vision encoders, treating SVG generation as a disjointed textual sequence modeling task rather than an integrated visuo-spatial one. Consequently, models struggle to reason about partial canvas states and implicit occlusion relationships, which are visually explicit but textually ambiguous. To bridge this gap, we propose Render-in-the-Loop, a novel generation paradigm that reformulates SVG synthesis as a step-wise, visual-context-aware process. By rendering intermediate code states into a cumulative canvas, the model explicitly observes the evolving visual context at each step, leveraging on-the-fly feedback to guide subsequent generation. However, we demonstrate that applying this visual loop naively to off-the-shelf models is suboptimal due to their inability to leverage incremental visual-code mappings. To address this, we first utilize fine-grained path decomposition to construct dense multi-step visual trajectories, and then introduce a Visual Self-Feedback (VSF) training strategy to condition the next primitive generation on intermediate visual states. Furthermore, a Render-and-Verify (RaV) inference mechanism is proposed to effectively filter degenerate and redundant primitives. Our framework, instantiated on a multimodal foundation model, outperforms strong open-weight baselines on the standard MMSVGBench. This result highlights the remarkable data efficiency and generalization capability of our Render-in-the-Loop paradigm for both Text-to-SVG and Image-to-SVG tasks.