LAMP: Language-Assisted Motion Planning for Controllable Video Generation
作者: Muhammed Burak Kizil, Enes Sanli, Niloy J. Mitra, Erkut Erdem, Aykut Erdem, Duygu Ceylan
分类: cs.CV
发布日期: 2025-12-03 (更新: 2025-12-08)
备注: Project Page: https://cyberiada.github.io/LAMP/
💡 一句话要点
LAMP:利用语言辅助的运动规划实现可控视频生成
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 视频生成 运动规划 大型语言模型 自然语言控制 领域特定语言
📋 核心要点
- 现有视频生成方法在运动控制方面存在局限性,难以将自然语言描述转化为精确的3D运动轨迹。
- LAMP利用大型语言模型(LLM)作为运动规划器,将自然语言描述转化为结构化的运动程序,进而生成3D轨迹。
- 实验表明,LAMP在运动可控性和用户意图对齐方面优于现有方法,实现了从自然语言到对象和相机运动的直接生成。
📝 摘要(中文)
视频生成在视觉保真度和可控性方面取得了显著进展,能够以文本、布局或运动为条件进行生成。其中,运动控制(指定对象动态和相机轨迹)对于合成复杂的电影场景至关重要,但现有的界面仍然有限。我们提出了LAMP,它利用大型语言模型(LLM)作为运动规划器,将自然语言描述转换为动态对象和(相对定义的)相机的显式3D轨迹。LAMP定义了一种受电影摄影惯例启发的运动领域特定语言(DSL)。通过利用LLM的程序合成能力,LAMP从自然语言生成结构化的运动程序,这些程序被确定性地映射到3D轨迹。我们构建了一个大规模的程序数据集,将自然文本描述与相应的运动程序和3D轨迹配对。实验表明,与最先进的替代方案相比,LAMP在运动可控性和与用户意图的对齐方面表现出更高的性能,从而建立了第一个直接从自然语言规范生成对象和相机运动的框架。代码、模型和数据可在我们的项目页面上找到。
🔬 方法详解
问题定义:现有视频生成方法在运动控制方面存在挑战,用户难以通过自然语言精确控制视频中物体和相机的运动轨迹。现有的界面通常较为复杂,难以表达复杂的电影场景需求。因此,如何将自然语言描述转化为精确的3D运动轨迹,是当前视频生成领域的一个痛点。
核心思路:LAMP的核心思路是利用大型语言模型(LLM)的强大语言理解和程序生成能力,将自然语言描述转化为结构化的运动程序。该运动程序使用一种领域特定语言(DSL)编写,该DSL灵感来源于电影摄影惯例,能够精确描述物体和相机的运动。通过将自然语言转化为运动程序,LAMP实现了对视频运动的精确控制。
技术框架:LAMP的整体框架包括以下几个主要模块:1) 自然语言输入模块:接收用户输入的自然语言描述;2) LLM运动规划模块:利用LLM将自然语言描述转化为运动DSL程序;3) 运动程序解析模块:解析运动DSL程序,生成3D运动轨迹;4) 视频生成模块:根据3D运动轨迹生成最终的视频。其中,LLM运动规划模块是核心,负责将自然语言转化为可执行的运动指令。
关键创新:LAMP最重要的技术创新在于利用LLM作为运动规划器,并引入了运动领域特定语言(DSL)。与以往方法直接从自然语言生成视频不同,LAMP通过中间的运动程序,实现了对运动轨迹的精确控制。这种方法使得用户可以通过修改运动程序来调整视频的运动效果,从而提高了视频生成的可控性。
关键设计:LAMP的关键设计包括:1) 运动DSL的设计:该DSL需要足够表达能力,能够描述各种复杂的物体和相机运动;2) LLM的训练:需要训练LLM能够将自然语言准确地转化为运动DSL程序;3) 大规模数据集的构建:需要构建一个大规模的数据集,包含自然语言描述、运动DSL程序和3D运动轨迹,用于训练LLM。
📊 实验亮点
实验结果表明,LAMP在运动可控性和与用户意图的对齐方面优于现有方法。通过与现有最先进的文本到视频生成模型进行对比,LAMP能够生成更符合用户自然语言描述的视频,尤其是在物体和相机的运动轨迹方面。定量评估和定性比较都证明了LAMP的有效性。
🎯 应用场景
LAMP具有广泛的应用前景,例如电影制作、游戏开发、虚拟现实等领域。它可以帮助用户快速生成具有复杂运动效果的视频,降低视频制作的门槛。此外,LAMP还可以应用于机器人控制领域,通过自然语言指令控制机器人的运动轨迹,实现更智能的人机交互。
📄 摘要(原文)
Video generation has achieved remarkable progress in visual fidelity and controllability, enabling conditioning on text, layout, or motion. Among these, motion control - specifying object dynamics and camera trajectories - is essential for composing complex, cinematic scenes, yet existing interfaces remain limited. We introduce LAMP that leverages large language models (LLMs) as motion planners to translate natural language descriptions into explicit 3D trajectories for dynamic objects and (relatively defined) cameras. LAMP defines a motion domain-specific language (DSL), inspired by cinematography conventions. By harnessing program synthesis capabilities of LLMs, LAMP generates structured motion programs from natural language, which are deterministically mapped to 3D trajectories. We construct a large-scale procedural dataset pairing natural text descriptions with corresponding motion programs and 3D trajectories. Experiments demonstrate LAMP's improved performance in motion controllability and alignment with user intent compared to state-of-the-art alternatives establishing the first framework for generating both object and camera motions directly from natural language specifications. Code, models and data are available on our project page.