Bernini: Latent Semantic Planning for Video Diffusion
作者: Bernini Team, Chenchen Liu, Junyi Chen, Lei Li, Lu Chi, Mingzhen Sun, Zhuoying Li, Yi Fu, Ruoyu Guo, Yiheng Wu, Ge Bai, Zehuan Yuan
分类: cs.CV, cs.AI, cs.MM
发布日期: 2026-05-21
备注: Project Page: https://bernini-ai.github.io/
💡 一句话要点
Bernini:提出基于潜在语义规划的视频扩散模型,用于高质量视频生成与编辑。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频生成 视频编辑 扩散模型 多模态学习 语义规划 大型语言模型 ViT嵌入 3D旋转位置编码
📋 核心要点
- 现有视频生成方法难以兼顾语义理解和高保真度生成,面临语义控制不足的挑战。
- Bernini框架利用MLLM进行语义规划,DiT进行像素渲染,解耦语义理解和视觉生成。
- 实验表明,Bernini在视频生成和编辑任务上均达到SOTA,尤其在复杂编辑任务中表现突出。
📝 摘要(中文)
本文提出了Bernini,一个统一的视频生成和编辑框架。该框架通过分工合作,结合了多模态大型语言模型(MLLM)和扩散模型的优势:MLLM负责语义规划,直接在ViT嵌入空间中预测目标语义表示;基于扩散Transformer(DiT)的渲染器则根据该语义计划、文本特征以及(对于编辑任务)源VAE特征合成像素,以保留细节。语义作为接口,使得规划器和渲染器可以分别训练并进行轻量级的协同训练,从而保留了两个组件的预训练优势,并保持了训练效率。为了更好地处理多个视觉输入,引入了分段感知的3D旋转位置编码(SA-3D RoPE),并在规划器中加入了思维链推理,以更好地将理解转化为生成。Bernini在各种视频生成和编辑基准测试中取得了最先进的性能,MLLM的预训练理解能力转化为在具有挑战性的编辑任务上的强大泛化能力。
🔬 方法详解
问题定义:现有的视频生成和编辑方法通常难以同时兼顾语义层面的理解和像素层面的高保真生成。尤其是在复杂的视频编辑任务中,如何保证编辑后的视频在语义上符合预期,同时保持原视频的细节和风格一致性,是一个巨大的挑战。现有的方法往往在语义控制的精确性和生成视频的真实性之间做出妥协。
核心思路:Bernini的核心思路是将视频生成和编辑任务分解为语义规划和像素渲染两个独立的阶段,并分别由擅长语义理解的MLLM和擅长高保真生成的扩散模型来完成。通过这种分工合作,可以充分利用两种模型的优势,从而在语义控制和生成质量上都达到最佳效果。这种解耦的设计也使得模型的训练更加高效,可以分别训练两个模块,并进行轻量级的协同训练。
技术框架:Bernini框架主要包含两个核心模块:基于MLLM的语义规划器和基于DiT的像素渲染器。首先,MLLM接收文本描述和(对于编辑任务)源视频的视觉特征作为输入,生成目标视频的语义表示(ViT embedding)。然后,DiT渲染器接收MLLM生成的语义表示、文本特征以及(对于编辑任务)源视频的VAE特征作为条件,生成最终的视频像素。为了更好地处理多个视觉输入,Bernini还引入了SA-3D RoPE。
关键创新:Bernini的关键创新在于将MLLM和扩散模型进行解耦,并利用MLLM进行语义规划。这种方法使得模型能够更好地理解文本描述和视频内容,从而生成更符合语义要求的视频。此外,SA-3D RoPE的引入使得模型能够更好地处理多个视觉输入,从而提高了视频编辑的性能。
关键设计:Bernini的关键设计包括:1) 使用MLLM直接预测ViT embedding作为语义表示,使得语义表示与像素渲染器更加兼容;2) 引入SA-3D RoPE,以更好地处理多个视觉输入;3) 在规划器中加入思维链推理,以提高语义理解能力;4) 使用VAE特征来保留源视频的细节信息。
🖼️ 关键图片
📊 实验亮点
Bernini在多个视频生成和编辑基准测试中取得了SOTA性能。尤其是在具有挑战性的视频编辑任务中,Bernini展现出了强大的泛化能力,能够根据文本描述对视频内容进行精确的修改,同时保持原视频的细节和风格一致性。实验结果表明,Bernini在视频生成质量和语义控制方面均优于现有方法。
🎯 应用场景
Bernini在视频内容创作、电影制作、游戏开发等领域具有广泛的应用前景。它可以用于生成各种类型的视频,例如动画、特效视频、广告等。此外,Bernini还可以用于视频编辑,例如修改视频内容、改变视频风格、添加特效等。该研究的突破将极大地降低视频创作的门槛,并为用户提供更加便捷和高效的视频编辑工具。
📄 摘要(原文)
Multimodal large language models (MLLMs) and diffusion models have each reached remarkable maturity: MLLMs excel at reasoning over heterogeneous multimodal inputs with strong semantic grounding, while diffusion models synthesize images and videos with photorealistic fidelity. We argue that these two families can be unified through a simple division of labor: MLLMs perform semantic planning, while diffusion models render pixels from high-level semantic guidance and low-level visual features. Building on this idea, we propose Bernini, a unified framework for video generation and editing. An MLLM-based planner predicts the target semantic representation directly in the ViT embedding space, and a DiT-based renderer synthesizes pixels conditioned on this plan, augmented by text features and, for editing, source VAE features for detail preservation. Because semantics serve as the interface, the planner and renderer can be trained separately and only lightly co-trained, preserving the pretrained strengths of both components while keeping training efficient. To better handle multiple visual inputs, we introduce Segment-Aware 3D Rotary Positional Embedding (SA-3D RoPE), and further incorporate chain-of-thought reasoning in the planner to better transfer understanding into generation. Bernini achieves state-of-the-art performance across a wide range of video generation and editing benchmarks, with the MLLM's pretrained understanding translating into strong generalization on challenging editing tasks.