AutoCut: End-to-end advertisement video editing based on multimodal discretization and controllable generation

📄 arXiv: 2603.28366v1 📥 PDF

作者: Milton Zhou, Sizhong Qin, Yongzhi Li, Quan Chen, Peng Jiang

分类: cs.CV

发布日期: 2026-03-30

备注: Accepted by CVPR 2026


💡 一句话要点

AutoCut:提出基于多模态离散化和可控生成的端到端广告视频编辑框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 广告视频编辑 多模态学习 视频生成 大型语言模型 向量量化 端到端框架

📋 核心要点

  1. 现有广告视频制作流程分散且依赖特定模态的AI工具,导致生产成本高昂且效率低下。
  2. AutoCut通过多模态离散化将视频、音频和文本信息统一表示为token,并利用大型语言模型实现可控视频编辑。
  3. 实验结果表明,AutoCut能够有效降低广告视频的生产成本和迭代时间,并显著提升内容的一致性和可控性。

📝 摘要(中文)

短视频已成为数字广告的主要媒介,需要可扩展且高效的内容创作。然而,当前的工作流程和AI工具仍然是分离的且模态特定的,导致高生产成本和低整体效率。为了解决这个问题,我们提出了AutoCut,一个基于多模态离散化和可控编辑的端到端广告视频编辑框架。AutoCut采用专用编码器提取视频和音频特征,然后应用残差向量量化将其离散化为与文本表示对齐的统一token,构建共享的视频-音频-文本token空间。基于一个基础模型,我们进一步开发了一个用于视频编辑的多模态大型语言模型,通过结合多模态对齐和监督微调,支持视频选择和排序、脚本生成和背景音乐选择等任务,在一个统一的编辑框架内完成。最后,一个完整的生产流程将预测的token序列转换为可部署的长视频输出。在真实广告数据集上的实验表明,AutoCut降低了生产成本和迭代时间,同时显著提高了内容一致性和可控性,为可扩展的视频创作铺平了道路。

🔬 方法详解

问题定义:论文旨在解决广告视频制作过程中,现有方法流程分散、模态特定,导致生产成本高、效率低的问题。现有方法难以实现端到端的自动化,且缺乏对视频内容一致性和可控性的有效保证。

核心思路:论文的核心思路是将视频、音频和文本信息进行统一的离散化表示,构建一个共享的多模态token空间。然后,利用大型语言模型学习不同模态之间的关系,并实现对视频编辑过程的可控生成。这种方法能够将不同的编辑任务整合到一个统一的框架中,从而提高效率和一致性。

技术框架:AutoCut框架主要包含以下几个模块:1) 多模态编码器:用于提取视频和音频特征。2) 残差向量量化器:用于将视频和音频特征离散化为token。3) 多模态大型语言模型:用于视频编辑任务,包括视频选择和排序、脚本生成和背景音乐选择。4) 视频生成pipeline:将预测的token序列转换为最终的视频输出。

关键创新:AutoCut的关键创新在于:1) 提出了一个统一的多模态token空间,能够将视频、音频和文本信息进行对齐和融合。2) 利用大型语言模型进行视频编辑,实现了对编辑过程的可控生成。3) 构建了一个端到端的广告视频编辑框架,能够自动化完成视频制作的多个环节。

关键设计:AutoCut使用残差向量量化(RVQ)将连续的视频和音频特征离散化为token,并通过多模态对齐和监督微调来训练大型语言模型。具体的损失函数和网络结构等技术细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在真实广告数据集上进行了实验,结果表明AutoCut能够有效降低生产成本和迭代时间,并显著提高内容的一致性和可控性。具体的性能数据和对比基线在摘要中没有明确给出,需要在论文中查找(未知)。

🎯 应用场景

AutoCut具有广泛的应用前景,可用于自动化广告视频制作、短视频内容生成、以及其他需要多模态信息融合的视频编辑任务。该研究能够显著降低视频制作成本,提高生产效率,并为个性化视频内容生成提供技术支持。未来,AutoCut有望应用于电商、社交媒体、在线教育等多个领域。

📄 摘要(原文)

Short-form videos have become a primary medium for digital advertising, requiring scalable and efficient content creation. However, current workflows and AI tools remain disjoint and modality-specific, leading to high production costs and low overall efficiency. To address this issue, we propose AutoCut, an end-to-end advertisement video editing framework based on multimodal discretization and controllable editing. AutoCut employs dedicated encoders to extract video and audio features, then applies residual vector quantization to discretize them into unified tokens aligned with textual representations, constructing a shared video-audio-text token space. Built upon a foundation model, we further develop a multimodal large language model for video editing through combined multimodal alignment and supervised fine-tuning, supporting tasks covering video selection and ordering, script generation, and background music selection within a unified editing framework. Finally, a complete production pipeline converts the predicted token sequences into deployable long video outputs. Experiments on real-world advertisement datasets show that AutoCut reduces production cost and iteration time while substantially improving consistency and controllability, paving the way for scalable video creation.