LottieGPT: Tokenizing Vector Animation for Autoregressive Generation
作者: Junhao Chen, Kejun Gao, Yuehan Cui, Mingze Sun, Mingjin Chen, Shaohui Wang, Xiaoxiao Long, Fei Ma, Qi Tian, Ruqi Huang, Hao Zhao
分类: cs.CV
发布日期: 2026-04-13
备注: Accepted by CVPR 2026. Project Page: https://lottiegpt.github.io/
💡 一句话要点
LottieGPT:提出一种基于Lottie动画的Token化与自回归生成框架
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 矢量动画生成 自回归模型 Lottie动画 Token化 多模态学习
📋 核心要点
- 现有视频生成模型无法生成矢量动画,而矢量动画在互联网上是一种重要且富有表现力的多媒体形式。
- 本文提出LottieGPT,通过定制的Lottie Tokenizer将矢量动画编码为Token序列,并利用自回归模型进行生成。
- 实验表明,LottieGPT能够从自然语言或视觉提示生成连贯、可编辑的矢量动画,并在SVG生成任务上超越现有方法。
📝 摘要(中文)
本文提出了一种用于Token化和自回归生成矢量动画的首个框架。该框架采用广泛应用的基于JSON的动画标准Lottie,并设计了一种定制的Lottie Tokenizer,将分层几何图元、变换和基于关键帧的运动编码为紧凑且语义对齐的Token序列。为了支持大规模训练,本文构建了迄今为止最大、最多样化的矢量动画数据集LottieAnimation-660K,包含来自互联网的66万个真实Lottie动画和1500万个静态Lottie图像文件。在此基础上,微调Qwen-VL以创建LottieGPT,这是一种原生的多模态模型,能够直接从自然语言或视觉提示生成连贯、可编辑的矢量动画。实验表明,本文的Tokenizer显著减少了序列长度,同时保持了结构保真度,从而实现了动态矢量内容的有效自回归学习。LottieGPT在各种动画风格中表现出强大的泛化能力,并在SVG生成(单帧矢量动画的特例)方面优于先前的最先进模型。
🔬 方法详解
问题定义:现有视频生成模型主要在栅格空间操作,无法原生生成矢量动画。矢量动画具有分辨率无关性、紧凑性、语义结构和可编辑的参数化运动表示等优点,但缺乏有效的生成方法。
核心思路:将矢量动画进行Token化,使其能够被自回归模型处理。利用Lottie这种广泛使用的动画格式,设计专门的Tokenizer,将复杂的动画结构转化为模型可以学习的Token序列。
技术框架:整体框架包括三个主要部分:1) LottieAnimation-660K数据集的构建,用于大规模训练;2) Lottie Tokenizer的设计,将Lottie动画转换为Token序列;3) LottieGPT模型的训练,基于Qwen-VL进行微调,实现从文本或图像到矢量动画的生成。
关键创新:首次提出针对矢量动画的Token化方案,使得自回归模型能够直接生成可编辑的矢量动画。构建了大规模的Lottie动画数据集,为模型训练提供了充足的数据支持。
关键设计:Lottie Tokenizer的设计需要考虑如何有效地表示几何图元、变换和关键帧运动。具体的技术细节包括如何选择合适的Token词汇表、如何处理不同类型的Lottie元素、以及如何保证Token序列的语义一致性。损失函数采用标准的自回归语言模型损失,网络结构基于Qwen-VL。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LottieGPT能够生成连贯且可编辑的矢量动画,并且在SVG生成任务上优于之前的SOTA模型。通过Lottie Tokenizer,序列长度显著减少,同时保持了动画的结构保真度。LottieGPT在各种动画风格上展现了良好的泛化能力,证明了该方法的有效性。
🎯 应用场景
LottieGPT可应用于动画设计、UI/UX设计、游戏开发、广告制作等领域。它可以帮助设计师快速生成各种风格的矢量动画,提高生产效率。此外,LottieGPT生成的可编辑矢量动画可以方便地进行修改和定制,满足不同用户的需求。未来,该技术有望推动矢量动画在更多领域的应用。
📄 摘要(原文)
Despite rapid progress in video generation, existing models are incapable of producing vector animation, a dominant and highly expressive form of multimedia on the Internet. Vector animations offer resolution-independence, compactness, semantic structure, and editable parametric motion representations, yet current generative models operate exclusively in raster space and thus cannot synthesize them. Meanwhile, recent advances in large multimodal models demonstrate strong capabilities in generating structured data such as slides, 3D meshes, LEGO sequences, and indoor layouts, suggesting that native vector animation generation may be achievable. In this work, we present the first framework for tokenizing and autoregressively generating vector animations. We adopt Lottie, a widely deployed JSON-based animation standard, and design a tailored Lottie Tokenizer that encodes layered geometric primitives, transforms, and keyframe-based motion into a compact and semantically aligned token sequence. To support large-scale training, we also construct LottieAnimation-660K, the largest and most diverse vector animation dataset to date, consisting of 660k real-world Lottie animation and 15M static Lottie image files curated from broad Internet sources. Building upon these components, we finetune Qwen-VL to create LottieGPT, a native multimodal model capable of generating coherent, editable vector animations directly from natural language or visual prompts. Experiments show that our tokenizer dramatically reduces sequence length while preserving structural fidelity, enabling effective autoregressive learning of dynamic vector content. LottieGPT exhibits strong generalization across diverse animation styles and outperforms previous state-of-the-art models on SVG generation (a special case of single-frame vector animation).