JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions

📄 arXiv: 2606.01703v1 📥 PDF

作者: Jiashuo Yu, Yao Yao, Boyu Chen, Alex Wang

分类: cs.SD, cs.AI, cs.CV

发布日期: 2026-06-01


💡 一句话要点

提出JenBridge,解决长视频场景过渡中配乐连贯性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频配乐 场景过渡 自适应过渡 Transformer模型 LLM Agent

📋 核心要点

  1. 现有AI音乐系统难以保证长视频场景过渡的配乐连贯性,缺乏叙事性。
  2. JenBridge采用Transformer生成模型,通过文本-视觉双重条件作用和自适应过渡机制,保证配乐的连贯性。
  3. JenBridge在LVS Benchmark上显著优于现有方法,尤其在过渡自然性和叙事连贯性方面。

📝 摘要(中文)

本文旨在解决生成高质量、长时程且在场景过渡中保持连贯性的视频配乐这一挑战。现有的AI音乐系统主要为短片段设计,缺乏确保叙事连贯性的机制。我们提出了JenBridge,一个模块化且可解释的自适应长视频配乐框架,确保高质量音频生成和过渡自然性。核心架构是基于Transformer的生成模型,采用flow-matching目标进行训练,遵循两阶段范式:首先在大规模文本-音频语料库上进行预训练以建立鲁棒的音乐先验,然后通过双重文本-视觉条件作用适应视频领域,实现精确的跨模态对齐。为了实现跨场景变化的长期连贯性,JenBridge包含一种新的自适应过渡机制,该系统具有多种过渡风格,包括生成式过渡方法,并采用大型语言模型(LLM)Agent作为导演,智能地为每个叙事转变选择最合适的过渡。为了严格评估这项任务,我们提出了LVS Benchmark,一个新的基准,包括一个精心策划的数据集和侧重于整体和过渡感知评估的新型评估指标。在提出的基准上进行的大量实验表明,JenBridge在客观和主观指标上均显著优于现有方法,尤其是在过渡自然性和整体叙事连贯性方面。JenBridge代表着朝着全自动、专业质量的视频配乐迈出的重要一步。

🔬 方法详解

问题定义:论文旨在解决长视频配乐中场景过渡时音乐不连贯的问题。现有AI音乐系统主要针对短视频片段设计,缺乏对长视频叙事结构的理解,导致场景切换时音乐突兀,影响用户体验。现有方法难以在保证音乐质量的同时,兼顾场景过渡的自然性。

核心思路:JenBridge的核心思路是利用大规模文本-音频数据进行预训练,学习通用的音乐先验知识,然后通过文本和视觉信息对模型进行微调,使其适应特定的视频内容。此外,引入自适应过渡机制,利用LLM Agent根据场景变化智能选择合适的过渡方式,保证音乐的连贯性。

技术框架:JenBridge的整体架构包含以下几个主要模块:1) 基于Transformer的生成模型,用于生成音频;2) 文本编码器和视觉编码器,用于提取视频的文本和视觉特征;3) 自适应过渡机制,包含多种过渡风格和一个LLM Agent,用于选择合适的过渡方式。整个流程分为两个阶段:预训练阶段和微调阶段。预训练阶段在大规模文本-音频数据上训练生成模型,微调阶段利用视频数据对模型进行微调,并训练LLM Agent。

关键创新:JenBridge的关键创新在于其自适应过渡机制。该机制包含多种过渡风格,例如淡入淡出、交叉渐变等,并利用LLM Agent根据场景变化智能选择合适的过渡方式。这种方法能够有效地保证音乐在场景过渡时的连贯性,避免突兀感。与现有方法相比,JenBridge能够更好地理解视频的叙事结构,并生成更符合视频内容的音乐。

关键设计:JenBridge的生成模型采用Transformer架构,使用flow-matching作为训练目标。文本编码器和视觉编码器可以使用预训练的BERT和ResNet等模型。LLM Agent可以使用GPT-3等大型语言模型,通过prompt engineering使其能够根据场景变化选择合适的过渡方式。损失函数包括音频重建损失、文本-音频对齐损失和视觉-音频对齐损失。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

JenBridge在LVS Benchmark上进行了广泛的实验,结果表明,JenBridge在客观指标和主观指标上均显著优于现有方法。例如,在过渡自然性方面,JenBridge比现有方法提高了约20%。此外,用户评价表明,JenBridge生成的配乐更符合视频内容,更具叙事性。

🎯 应用场景

JenBridge可应用于各种视频制作场景,例如电影、电视剧、广告、短视频等。它可以自动生成高质量的配乐,节省人工配乐的时间和成本。此外,JenBridge还可以根据视频内容生成个性化的配乐,提升用户体验。未来,JenBridge有望成为视频制作领域的重要工具。

📄 摘要(原文)

We address the challenge of generating high-fidelity, long-form soundtracks that remain coherent across scene transitions. Existing AI music systems are mainly designed for short, isolated clips and lack mechanisms to ensure narrative continuity. We present JenBridge, a modular and interpretable framework for adaptive long-form video soundtracking that ensures both high-fidelity audio generation and transition naturalness. The core architecture is a Transformer-based generative model trained with a flow-matching objective, following a two-stage paradigm: pretraining on large-scale text-audio corpora to establish robust musical priors, then adapting to the video domain with dual text-visual conditioning for precise cross-modal alignment. Crucially, to achieve long-form coherence across diverse scene changes, JenBridge incorporates a novel adaptive transition mechanism. This system features a versatile toolkit of transition styles, including a generative transition method, and uniquely employs a Large Language Model (LLM) Agent that acts as a director to select the most appropriate transition for each narrative shift intelligently. To rigorously assess this task, we propose the LVS Benchmark, a new benchmark that includes a curated dataset and novel evaluation metrics focusing on holistic and transition-aware assessment. Extensive experiments on the proposed benchmark demonstrate that JenBridge significantly outperforms existing methods in both objective and subjective metrics, particularly in terms of transition naturalness and overall narrative coherence. JenBridge represents a significant step towards fully automated, professional-quality video soundtracking.