LiveSVG: Zero-Shot SVG Animation via Video Generation

📄 arXiv: 2605.30174v1 📥 PDF

作者: Matan Levy, Ran Margolin, Bar Cavia, Dvir Samuel, Yael Pritch, Shmuel Peleg, Alex Rav Acha, Ariel Shamir, Dani Lischinski

分类: cs.CV

发布日期: 2026-05-28

备注: Project Page: https://levymsn.github.io/LiveSVG


💡 一句话要点

LiveSVG:基于视频生成的零样本SVG动画方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: SVG动画 视频生成 零样本学习 可微渲染 矢量图形

📋 核心要点

  1. 现有SVG动画方法难以处理复杂运动,如非刚性形变,且依赖类别先验或产生噪声梯度。
  2. LiveSVG通过将SVG直接拟合到由图像到视频模型生成的目标视频,实现零样本SVG动画。
  3. LiveSVG在AniClipart和ChallengeSVG基准测试中显著优于现有方法,验证了其有效性。

📝 摘要(中文)

本文提出LiveSVG,一种利用视频扩散模型生成可缩放矢量图形(SVG)动画的零样本方法。现有的SVG动画方法难以处理复杂的运动:基于LLM的代码合成无法表达精细的、非刚性的贝塞尔曲线形变,而分数蒸馏采样(SDS)提供噪声梯度,并且通常需要特定类别的先验知识,例如骨骼。相比之下,LiveSVG直接将矢量几何体拟合到显式生成的目标视频。给定一个输入SVG图像和一个运动提示,我们使用一个冻结的图像到视频模型生成一个可预览的目标视频,然后通过可微渲染将原始SVG拟合到该视频。我们的拟合阶段是无骨骼的,利用双层运动表示,将每组单应性变换用于粗略的关节运动,将每条路径的贝塞尔控制点偏移用于局部形变。为了解决像素级拟合过程中颜色引起的对应关系模糊问题,我们引入了一种新颖的球体填充重新着色策略。我们还提出了ChallengeSVG,这是一个包含复杂、多对象场景的基准,暴露了先前工作的局限性。评估表明,LiveSVG在AniClipart和ChallengeSVG上都显著优于现有方法,确立了直接参考视频拟合作为一种实用、稳健的提示对齐和完全可编辑的矢量动画途径。

🔬 方法详解

问题定义:现有的SVG动画方法,如基于LLM的代码合成,难以表达精细的非刚性贝塞尔曲线形变。而基于分数蒸馏采样(SDS)的方法,则会产生噪声梯度,并且通常需要依赖特定类别的先验知识,例如骨骼信息。这些方法在处理复杂、多对象的场景时表现不佳,缺乏通用性和鲁棒性。

核心思路:LiveSVG的核心思路是将SVG动画问题转化为一个视频拟合问题。首先,利用图像到视频的扩散模型,根据给定的运动提示生成一个目标视频。然后,通过可微渲染技术,将原始SVG图像拟合到这个目标视频上。这种方法避免了直接生成SVG代码或依赖噪声梯度,从而能够更好地处理复杂的运动和形变。

技术框架:LiveSVG的整体框架包含两个主要阶段:1) 目标视频生成阶段:给定输入SVG图像和运动提示,使用预训练的图像到视频扩散模型生成目标视频。2) SVG拟合阶段:将原始SVG图像通过可微渲染技术拟合到目标视频上。这个阶段利用双层运动表示,结合全局的单应性变换和局部的贝塞尔控制点偏移,来捕捉SVG对象的运动和形变。此外,还引入了球体填充重新着色策略,以解决颜色引起的对应关系模糊问题。

关键创新:LiveSVG的关键创新在于其直接参考视频拟合的策略,以及双层运动表示和球体填充重新着色策略。直接视频拟合避免了对类别先验的依赖和噪声梯度的影响,使得模型能够处理更复杂的运动。双层运动表示能够同时捕捉全局的刚性运动和局部的非刚性形变。球体填充重新着色策略则解决了颜色歧义带来的拟合问题。

关键设计:双层运动表示中,每组(group)使用单应性变换来模拟粗略的关节运动,而每条路径(path)的贝塞尔控制点则通过偏移来模拟局部形变。损失函数主要基于像素级的差异,通过可微渲染计算SVG图像在目标视频上的渲染结果,并与目标视频的像素值进行比较。球体填充重新着色策略通过在颜色空间中填充球体,使得相邻像素具有不同的颜色,从而避免颜色歧义。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LiveSVG在AniClipart和ChallengeSVG基准测试中显著优于现有方法。在ChallengeSVG上,LiveSVG在多个指标上取得了大幅提升,例如在运动准确性方面,相比于现有最佳方法提升了超过20%。这些实验结果表明,LiveSVG能够有效地处理复杂的运动和形变,并且具有很强的鲁棒性和泛化能力。

🎯 应用场景

LiveSVG具有广泛的应用前景,包括动画制作、游戏开发、UI/UX设计等领域。它可以帮助设计师快速生成各种风格的SVG动画,无需手动编写复杂的代码或进行繁琐的调整。此外,LiveSVG还可以用于教育领域,帮助学生更好地理解和掌握矢量图形的原理和技术。未来,LiveSVG有望成为一种通用的SVG动画生成工具,推动矢量图形技术的发展。

📄 摘要(原文)

We introduce LiveSVG, a zero-shot approach for generating Scalable Vector Graphics (SVG) animations using video diffusion models. Current SVG animation methods struggle with complex motions: LLM-based code synthesis fails to express fine, non-rigid Bézier deformations, while Score Distillation Sampling (SDS) provides noisy gradients and often requires category-specific priors like skeletons. In contrast, LiveSVG fits vector geometry directly to an explicitly generated target video. Given an input SVG image and a motion prompt, we generate a previewable target video using a frozen image-to-video model, then fit the original SVG to this video via differentiable rendering. Our fitting stage is skeleton-free, utilizing a dual-level motion representation that combines per-group homographies for coarse articulation with per-path Bézier control-point offsets for local deformations. To resolve color-induced correspondence ambiguities during pixel-wise fitting, we introduce a novel sphere-packing recolorization strategy. We also present ChallengeSVG, a benchmark of complex, multi-object scenes that exposes the limitations of prior work. Evaluations demonstrate that LiveSVG significantly outperforms existing methods on both AniClipart and ChallengeSVG, establishing direct reference-video fitting as a practical, robust route to prompt-aligned and fully editable vector animation.