OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

📄 arXiv: 2604.11102v1 📥 PDF

作者: Junfu Pu, Yuxin Chen, Teng Wang, Ying Shan

分类: cs.CV, cs.MM

发布日期: 2026-04-13

备注: Project Page: https://arcomniscript.github.io


💡 一句话要点

提出OmniScript,用于生成长篇电影视频的音视频脚本,提升时序定位和语义准确性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 视频脚本生成 多模态学习 思维链 强化学习

📋 核心要点

  1. 现有MLLM在短视频理解表现出色,但长篇电影视频生成详细脚本仍是挑战。
  2. 提出OmniScript模型,利用思维链微调和强化学习,提升长篇叙事理解能力。
  3. 实验表明,OmniScript参数效率高,性能媲美Gemini 3-Pro等先进模型。

📝 摘要(中文)

当前的多模态大型语言模型(MLLM)在短视频理解方面表现出了卓越的能力,但将长篇电影视频转化为详细的、具有时间依据的脚本仍然是一个巨大的挑战。本文介绍了新的视频到脚本(V2S)任务,旨在生成分层的、逐场景的脚本,包括人物动作、对话、表情和音频提示。为了实现这一目标,我们构建了首个由人工标注的基准,并提出了一个时间感知的分层评估框架。此外,我们提出了OmniScript,一个80亿参数的通用模态(音视频)语言模型,专门用于长篇叙事理解。OmniScript通过渐进式流程进行训练,该流程利用思维链监督微调进行情节和人物推理,然后使用时间分割奖励进行强化学习。大量的实验表明,尽管其参数效率很高,但在时间定位和多领域语义准确性方面,OmniScript显著优于更大的开源模型,并实现了与最先进的专有模型(包括Gemini 3-Pro)相当的性能。

🔬 方法详解

问题定义:论文旨在解决将长篇电影视频自动转换为详细、时间对齐的脚本的问题。现有方法难以处理长视频的时序依赖性和复杂语义,缺乏针对电影领域特点的优化。

核心思路:论文的核心思路是构建一个专门针对长篇叙事视频的音视频语言模型,并通过渐进式的训练流程,逐步提升模型的情节理解、人物推理和脚本生成能力。利用思维链(Chain-of-Thought)方法引导模型进行更深入的推理,并使用强化学习优化脚本的质量。

技术框架:OmniScript的训练流程包含以下几个主要阶段:1) 数据准备:构建包含人工标注的长篇电影视频脚本数据集。2) 预训练:使用大规模文本和音视频数据对模型进行预训练,使其具备基础的语言理解和多模态感知能力。3) 思维链微调:使用思维链方法对模型进行监督微调,使其能够进行情节和人物推理。4) 强化学习:使用时间分割奖励对模型进行强化学习,优化脚本的流畅性和准确性。

关键创新:论文的关键创新在于:1) 提出了视频到脚本(V2S)任务,并构建了相应的基准数据集。2) 设计了OmniScript模型,一个专门针对长篇叙事视频的音视频语言模型。3) 提出了渐进式的训练流程,包括思维链微调和强化学习,有效提升了模型的情节理解和脚本生成能力。

关键设计:OmniScript模型是一个80亿参数的通用模态语言模型,具体网络结构未知。训练过程中,思维链微调使用交叉熵损失函数,强化学习使用时间分割奖励函数,奖励函数的设计细节未知。数据集包含人工标注的电影视频脚本,标注规范未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniScript在长篇电影视频脚本生成任务上取得了显著成果。实验表明,OmniScript在时间定位和多领域语义准确性方面,显著优于更大的开源模型,并实现了与最先进的专有模型(包括Gemini 3-Pro)相当的性能。具体提升幅度未知。

🎯 应用场景

OmniScript具有广泛的应用前景,例如:自动电影剧本生成、视频内容分析与理解、电影教育辅助工具、以及为听力或视力障碍人士提供无障碍电影体验。该研究有助于提升视频内容创作的效率和质量,并促进电影文化的传播。

📄 摘要(原文)

Current multimodal large language models (MLLMs) have demonstrated remarkable capabilities in short-form video understanding, yet translating long-form cinematic videos into detailed, temporally grounded scripts remains a significant challenge. This paper introduces the novel video-to-script (V2S) task, aiming to generate hierarchical, scene-by-scene scripts encompassing character actions, dialogues, expressions, and audio cues. To facilitate this, we construct a first-of-its-kind human-annotated benchmark and propose a temporally-aware hierarchical evaluation framework. Furthermore, we present OmniScript, an 8B-parameter omni-modal (audio-visual) language model tailored for long-form narrative comprehension. OmniScript is trained via a progressive pipeline that leverages chain-of-thought supervised fine-tuning for plot and character reasoning, followed by reinforcement learning using temporally segmented rewards. Extensive experiments demonstrate that despite its parameter efficiency, OmniScript significantly outperforms larger open-source models and achieves performance comparable to state-of-the-art proprietary models, including Gemini 3-Pro, in both temporal localization and multi-field semantic accuracy.