Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
作者: Tencent Hunyuan Team
分类: cs.CV
发布日期: 2026-04-13
💡 一句话要点
提出多流场景脚本MTSS,解耦视频信息以提升多模态大语言模型在视频理解和生成任务上的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视频理解 视频生成 场景脚本 关系建模
📋 核心要点
- 现有视频字幕方法将视频视为单一叙事段落,导致信息耦合,限制了表征能力和可扩展性。
- 提出多流场景脚本MTSS,通过流分解和关系接地,解耦视频信息并保持整体一致性。
- 实验表明MTSS显著提升视频理解和生成任务性能,缩小了不同规模MLLM的性能差距。
📝 摘要(中文)
多模态大语言模型(MLLM)的进步正在将视频字幕生成从描述性终点转变为视频理解和生成的语义接口。然而,目前的主流方法仍然将视频视为单一的叙事段落,其中视觉、听觉和身份信息相互纠缠。这种紧密的耦合不仅损害了表征的保真度,还限制了可扩展性,因为即使是局部编辑也可能触发全局重写。为了解决这个结构性瓶颈,我们提出了多流场景脚本(MTSS),一种新颖的范例,用分解的、显式接地的场景描述来代替单一文本。MTSS建立在两个核心原则之上:流分解,将视频解耦为互补的流(参考、镜头、事件和全局),以及关系接地,通过显式的身份和时间链接重新连接这些孤立的流,以保持整体视频一致性。大量实验表明,MTSS始终如一地增强了各种模型上的视频理解能力,在Video-SALMONN-2上总错误率平均降低了25%,在Daily-Omni推理基准上平均性能提高了67%。它还缩小了较小和较大MLLM之间的性能差距,表明字幕接口更易于学习。最后,即使没有架构调整,在多镜头视频生成中用MTSS替换单一提示也能产生显著的人工评估改进:跨镜头身份一致性提高45%,视听对齐提高56%,时间可控性提高71%。
🔬 方法详解
问题定义:现有视频字幕方法将视频视为一个整体的叙事段落,视觉、听觉和身份信息高度耦合,导致表征能力受限,难以进行局部编辑和扩展。这种方式无法充分利用视频中不同模态和不同时间片段的信息,阻碍了多模态大语言模型在视频理解和生成任务上的应用。
核心思路:论文的核心思路是将视频解耦为多个互补的信息流,包括参考流、镜头流、事件流和全局流。每个流专注于视频的不同方面,例如参考流关注视频中的关键对象,镜头流关注每个镜头的视觉内容。然后,通过关系接地,即显式地建立不同流之间的身份和时间链接,将这些孤立的流重新连接起来,以保持视频的整体一致性。
技术框架:MTSS框架包含两个主要阶段:流分解和关系接地。在流分解阶段,视频被分解为四个互补的流:参考流(Reference Stream)、镜头流(Shot Stream)、事件流(Event Stream)和全局流(Global Stream)。每个流都包含对视频特定方面的描述。在关系接地阶段,通过显式的身份和时间链接,将这些孤立的流重新连接起来。这些链接用于维护视频的整体一致性,并允许模型在不同流之间进行推理。
关键创新:MTSS的关键创新在于其解耦视频信息的方式。通过将视频分解为多个互补的流,MTSS能够更有效地表示视频中的各种信息。与现有方法相比,MTSS能够更好地捕捉视频中的细粒度细节,并更好地处理视频中的复杂关系。此外,MTSS的关系接地机制能够确保视频的整体一致性,从而提高视频理解和生成任务的性能。
关键设计:论文中没有详细说明具体的参数设置、损失函数或网络结构等技术细节。但是,可以推断出,每个流可能使用不同的编码器来提取特征。关系接地可能通过注意力机制或图神经网络来实现,以学习不同流之间的关系。损失函数可能包括用于确保每个流的准确性的损失项,以及用于确保不同流之间一致性的损失项。(具体细节未知)
🖼️ 关键图片
📊 实验亮点
实验结果表明,MTSS在Video-SALMONN-2数据集上总错误率平均降低了25%,在Daily-Omni推理基准上平均性能提高了67%。此外,MTSS还缩小了较小和较大MLLM之间的性能差距。在多镜头视频生成任务中,使用MTSS作为提示,跨镜头身份一致性提高45%,视听对齐提高56%,时间可控性提高71%。
🎯 应用场景
MTSS方法可应用于视频字幕生成、视频摘要、视频编辑、视频检索等领域。通过解耦视频信息,可以更灵活地控制视频生成过程,例如,可以轻松地修改视频中的人物身份或事件发生的时间。此外,MTSS还可以用于提高视频检索的准确性,例如,可以通过查询视频中的特定对象或事件来检索相关视频。未来,MTSS有望成为多模态视频理解和生成的重要技术。
📄 摘要(原文)
Advances in Multimodal Large Language Models (MLLMs) are transforming video captioning from a descriptive endpoint into a semantic interface for both video understanding and generation. However, the dominant paradigm still casts videos as monolithic narrative paragraphs that entangle visual, auditory, and identity information. This dense coupling not only compromises representational fidelity but also limits scalability, since even local edits can trigger global rewrites. To address this structural bottleneck, we propose Multi-Stream Scene Script (MTSS), a novel paradigm that replaces monolithic text with factorized and explicitly grounded scene descriptions. MTSS is built on two core principles: Stream Factorization, which decouples a video into complementary streams (Reference, Shot, Event, and Global), and Relational Grounding, which reconnects these isolated streams through explicit identity and temporal links to maintain holistic video consistency. Extensive experiments demonstrate that MTSS consistently enhances video understanding across various models, achieving an average reduction of 25% in the total error rate on Video-SALMONN-2 and an average performance gain of 67% on the Daily-Omni reasoning benchmark. It also narrows the performance gap between smaller and larger MLLMs, indicating a substantially more learnable caption interface. Finally, even without architectural adaptation, replacing monolithic prompts with MTSS in multi-shot video generation yields substantial human-rated improvements: a 45% boost in cross-shot identity consistency, a 56% boost in audio-visual alignment, and a 71% boost in temporal controllability.