LiveSVG: Zero-Shot SVG Animation via Video Generation

作者: Matan Levy, Ran Margolin, Bar Cavia, Dvir Samuel, Yael Pritch, Shmuel Peleg, Alex Rav Acha, Ariel Shamir, Dani Lischinski

分类: cs.CV

发布日期: 2026-05-28

备注: Project Page: https://levymsn.github.io/LiveSVG

💡 一句话要点

LiveSVG：基于视频生成的零样本SVG动画方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: SVG动画 视频生成 零样本学习 可微渲染 矢量图形

📋 核心要点

现有SVG动画方法难以处理复杂运动，如非刚性形变，且依赖类别先验或产生噪声梯度。
LiveSVG通过将SVG直接拟合到由图像到视频模型生成的目标视频，实现零样本SVG动画。
LiveSVG在AniClipart和ChallengeSVG基准测试中显著优于现有方法，验证了其有效性。

📝 摘要（中文）

本文提出LiveSVG，一种利用视频扩散模型生成可缩放矢量图形(SVG)动画的零样本方法。现有的SVG动画方法难以处理复杂的运动：基于LLM的代码合成无法表达精细的、非刚性的贝塞尔曲线形变，而分数蒸馏采样(SDS)提供噪声梯度，并且通常需要特定类别的先验知识，例如骨骼。相比之下，LiveSVG直接将矢量几何体拟合到显式生成的目标视频。给定一个输入SVG图像和一个运动提示，我们使用一个冻结的图像到视频模型生成一个可预览的目标视频，然后通过可微渲染将原始SVG拟合到该视频。我们的拟合阶段是无骨骼的，利用双层运动表示，将每组单应性变换用于粗略的关节运动，将每条路径的贝塞尔控制点偏移用于局部形变。为了解决像素级拟合过程中颜色引起的对应关系模糊问题，我们引入了一种新颖的球体填充重新着色策略。我们还提出了ChallengeSVG，这是一个包含复杂、多对象场景的基准，暴露了先前工作的局限性。评估表明，LiveSVG在AniClipart和ChallengeSVG上都显著优于现有方法，确立了直接参考视频拟合作为一种实用、稳健的提示对齐和完全可编辑的矢量动画途径。

🔬 方法详解

问题定义：现有的SVG动画方法，如基于LLM的代码合成，难以表达精细的非刚性贝塞尔曲线形变。而基于分数蒸馏采样(SDS)的方法，则会产生噪声梯度，并且通常需要依赖特定类别的先验知识，例如骨骼信息。这些方法在处理复杂、多对象的场景时表现不佳，缺乏通用性和鲁棒性。

核心思路：LiveSVG的核心思路是将SVG动画问题转化为一个视频拟合问题。首先，利用图像到视频的扩散模型，根据给定的运动提示生成一个目标视频。然后，通过可微渲染技术，将原始SVG图像拟合到这个目标视频上。这种方法避免了直接生成SVG代码或依赖噪声梯度，从而能够更好地处理复杂的运动和形变。

技术框架：LiveSVG的整体框架包含两个主要阶段：1) 目标视频生成阶段：给定输入SVG图像和运动提示，使用预训练的图像到视频扩散模型生成目标视频。2) SVG拟合阶段：将原始SVG图像通过可微渲染技术拟合到目标视频上。这个阶段利用双层运动表示，结合全局的单应性变换和局部的贝塞尔控制点偏移，来捕捉SVG对象的运动和形变。此外，还引入了球体填充重新着色策略，以解决颜色引起的对应关系模糊问题。

关键创新：LiveSVG的关键创新在于其直接参考视频拟合的策略，以及双层运动表示和球体填充重新着色策略。直接视频拟合避免了对类别先验的依赖和噪声梯度的影响，使得模型能够处理更复杂的运动。双层运动表示能够同时捕捉全局的刚性运动和局部的非刚性形变。球体填充重新着色策略则解决了颜色歧义带来的拟合问题。

关键设计：双层运动表示中，每组（group）使用单应性变换来模拟粗略的关节运动，而每条路径（path）的贝塞尔控制点则通过偏移来模拟局部形变。损失函数主要基于像素级的差异，通过可微渲染计算SVG图像在目标视频上的渲染结果，并与目标视频的像素值进行比较。球体填充重新着色策略通过在颜色空间中填充球体，使得相邻像素具有不同的颜色，从而避免颜色歧义。

🖼️ 关键图片

📊 实验亮点

LiveSVG在AniClipart和ChallengeSVG基准测试中显著优于现有方法。在ChallengeSVG上，LiveSVG在多个指标上取得了大幅提升，例如在运动准确性方面，相比于现有最佳方法提升了超过20%。这些实验结果表明，LiveSVG能够有效地处理复杂的运动和形变，并且具有很强的鲁棒性和泛化能力。

🎯 应用场景

LiveSVG具有广泛的应用前景，包括动画制作、游戏开发、UI/UX设计等领域。它可以帮助设计师快速生成各种风格的SVG动画，无需手动编写复杂的代码或进行繁琐的调整。此外，LiveSVG还可以用于教育领域，帮助学生更好地理解和掌握矢量图形的原理和技术。未来，LiveSVG有望成为一种通用的SVG动画生成工具，推动矢量图形技术的发展。

📄 摘要（原文）

We introduce LiveSVG, a zero-shot approach for generating Scalable Vector Graphics (SVG) animations using video diffusion models. Current SVG animation methods struggle with complex motions: LLM-based code synthesis fails to express fine, non-rigid Bézier deformations, while Score Distillation Sampling (SDS) provides noisy gradients and often requires category-specific priors like skeletons. In contrast, LiveSVG fits vector geometry directly to an explicitly generated target video. Given an input SVG image and a motion prompt, we generate a previewable target video using a frozen image-to-video model, then fit the original SVG to this video via differentiable rendering. Our fitting stage is skeleton-free, utilizing a dual-level motion representation that combines per-group homographies for coarse articulation with per-path Bézier control-point offsets for local deformations. To resolve color-induced correspondence ambiguities during pixel-wise fitting, we introduce a novel sphere-packing recolorization strategy. We also present ChallengeSVG, a benchmark of complex, multi-object scenes that exposes the limitations of prior work. Evaluations demonstrate that LiveSVG significantly outperforms existing methods on both AniClipart and ChallengeSVG, establishing direct reference-video fitting as a practical, robust route to prompt-aligned and fully editable vector animation.

LiveSVG: Zero-Shot SVG Animation via Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理