Generative Animations: A Multi-Model Pipeline for Prompt-Driven Motion Synthesis
作者: Mannat Khurana, Sanyam Jain, Rishav Agarwal
分类: cs.CV, cs.AI
发布日期: 2026-05-26
备注: 5 pages, 6 figures
💡 一句话要点
提出Generative Animations,通过提示驱动的多模型管线合成动画
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动画生成 自然语言提示 大型语言模型 视觉分割 运动路径规划
📋 核心要点
- 现有动画制作流程复杂,依赖手动操作,缺乏自动化和智能化。
- Generative Animations利用LLM进行语义解析,SAM进行视觉定位,实现提示驱动的动画生成。
- 系统展示了轮廓跟踪、轨道动画和透视对齐运动等用例,验证了其有效性。
📝 摘要(中文)
动画能够将数字文档提升为沉浸式体验,但创建自定义运动路径仍然繁琐,设计师需要手动选择预设、绘制贝塞尔曲线点以及配置时间属性。我们提出了Generative Animations,一个将自然语言提示转换为可用于生产的动画的系统。通过将用于语义解析的大型语言模型(LLM)与用于视觉基础的Segment Anything Model(SAM)链接起来,我们的管线能够自动生成尊重场景几何结构、处理基于深度的遮挡以及遵循3D透视变换的运动路径。我们通过三个用例展示了该系统:轮廓跟踪轨迹、具有z轴顺序感知的轨道动画以及透视对齐的变换对象运动。
🔬 方法详解
问题定义:现有动画制作流程需要设计师手动选择预设、绘制贝塞尔曲线点和配置时间属性,过程繁琐且耗时。缺乏一种能够根据自然语言提示自动生成动画的有效方法,尤其是在考虑场景几何结构、深度遮挡和3D透视变换的情况下。
核心思路:论文的核心思路是将自然语言提示转化为动画运动路径。通过结合大型语言模型(LLM)的语义理解能力和Segment Anything Model(SAM)的视觉分割能力,系统能够理解用户意图,并根据场景内容生成合理的运动轨迹。这种方法旨在减少人工干预,提高动画制作效率。
技术框架:Generative Animations系统包含以下主要模块:1) LLM语义解析:使用LLM解析自然语言提示,提取关键信息,例如运动类型、目标对象等。2) SAM视觉分割:利用SAM分割场景中的对象,获取对象的几何信息和深度信息。3) 运动路径生成:根据LLM的语义解析结果和SAM的视觉分割结果,生成符合场景几何结构、深度遮挡和3D透视变换的运动路径。4) 动画渲染:将生成的运动路径应用于目标对象,渲染生成最终的动画。
关键创新:该方法的主要创新在于将LLM和SAM结合起来,实现自然语言提示驱动的动画生成。与传统的动画制作方法相比,该方法能够自动生成符合场景上下文的运动路径,减少了人工干预。此外,系统还考虑了深度遮挡和3D透视变换,使得生成的动画更加真实自然。
关键设计:LLM的选择和prompt的设计对语义解析的准确性至关重要。SAM的分割精度直接影响运动路径的质量。运动路径生成算法需要根据不同的运动类型和场景特点进行调整。具体的参数设置、损失函数和网络结构等技术细节在论文中可能未详细描述,属于未知信息。
📊 实验亮点
论文通过三个用例展示了Generative Animations系统的有效性:轮廓跟踪轨迹、具有z轴顺序感知的轨道动画以及透视对齐的变换对象运动。虽然论文中没有提供具体的性能数据和对比基线,但这些用例表明该系统能够生成符合场景几何结构、深度遮挡和3D透视变换的动画。
🎯 应用场景
该研究成果可应用于广告设计、教育内容制作、游戏开发等领域。通过自然语言提示快速生成动画,降低了动画制作门槛,提高了生产效率。未来,该技术有望应用于更复杂的场景,例如虚拟现实和增强现实环境中的动画生成,为用户提供更丰富的交互体验。
📄 摘要(原文)
Animation elevates digital documents into immersive experiences, yet creating custom motion paths remains cumbersome, requiring designers to manually select presets, plot Bézier points, and configure timing properties. We introduce Generative Animations, a system that transforms natural language prompts into production-ready animations. By chaining Large Language Models (LLMs) for semantic parsing with the Segment Anything Model (SAM) for visual grounding, our pipeline automatically generates motion paths that respect scene geometry, handle depth-based occlusions, and honor 3D perspective transforms. We demonstrate the system through three use cases: contour-following trajectories, orbital animations with z-order awareness, and perspective-aligned motion on transformed objects.