TransVLM: A Vision-Language Framework and Benchmark for Detecting Any Shot Transitions

📄 arXiv: 2604.27975v1 📥 PDF

作者: Ce Chen, Yi Ren, Yuanming Li, Viktor Goriachko, Zhenhui Ye, Zujin Guo, Zhibin Hong, Mingming Gong

分类: cs.CV, cs.AI

发布日期: 2026-04-30

备注: This work has been deployed to production. For more related research, please visit HeyGen Research (https://www.heygen.com/research) and HeyGen Avatar-V (https://www.heygen.com/research/avatar-v-model). Project page: https://chence17.github.io/TransVLM/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出TransVLM,用于检测视频中任意类型的镜头过渡,解决传统方法对复杂过渡处理不足的问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 镜头过渡检测 视觉-语言模型 光流 时间感知 视频理解

📋 核心要点

  1. 传统镜头边界检测侧重于孤立的切割点,难以有效处理视频中复杂的镜头过渡。
  2. TransVLM通过注入光流作为运动先验,并融合颜色和运动信息,增强模型的时间感知能力。
  3. TransVLM在镜头过渡检测任务上表现出色,超越了传统方法和先进的视觉-语言模型。

📝 摘要(中文)

传统镜头边界检测(SBD)将任务定义为孤立的切割点,难以处理复杂的过渡,导致视频镜头分割质量下降。本文通过形式化镜头过渡检测(STD)任务来解决这一根本限制。STD显式地检测过渡的连续时间段,而不是寻找模糊的点。为此,我们提出了用于STD的视觉-语言模型(VLM)框架TransVLM。与主要依赖于空间语义且难以处理细粒度镜头间动态的常规VLM不同,我们的方法在输入阶段显式地注入光流作为关键的运动先验。通过简单而有效的特征融合策略,TransVLM直接处理连接的颜色和运动表示,显著增强其时间感知能力,而不会在语言骨干网上产生任何额外的视觉token开销。为了克服公共数据中严重的类别不平衡问题,我们设计了一个可扩展的数据引擎来合成多样化的过渡视频,用于鲁棒训练,并为STD建立了一个全面的基准。大量实验表明,TransVLM实现了卓越的整体性能,优于传统的启发式方法、专门的时空网络和顶级的VLM。这项工作已部署到生产中。

🔬 方法详解

问题定义:传统镜头边界检测(SBD)将镜头过渡视为孤立的切割点,忽略了过渡过程的连续性和复杂性,导致在处理如淡入淡出、叠化等复杂过渡时性能不佳。现有方法难以准确检测和定位这些过渡,影响了视频分析和编辑的质量。

核心思路:TransVLM的核心思路是将镜头过渡检测(STD)定义为一个显式地检测连续时间段的任务,而非寻找孤立的切割点。通过引入光流作为运动先验,并将其与视觉信息融合,增强模型对镜头间动态变化的感知能力。这种方法能够更准确地识别和定位各种类型的镜头过渡。

技术框架:TransVLM框架主要包含以下几个模块:1) 视频输入模块,接收视频帧序列;2) 光流计算模块,计算视频帧之间的光流信息;3) 特征提取模块,分别提取视频帧的视觉特征和光流特征;4) 特征融合模块,将视觉特征和光流特征进行融合,得到融合后的特征表示;5) 语言模型骨干网络,例如Transformer,用于处理融合后的特征,并预测镜头过渡的起始和结束时间。

关键创新:TransVLM的关键创新在于:1) 将镜头过渡检测形式化为连续时间段的检测任务;2) 在视觉-语言模型中显式地注入光流作为运动先验,增强了模型的时间感知能力;3) 提出了一种简单而有效的特征融合策略,将视觉特征和光流特征进行融合,提高了模型的性能。

关键设计:TransVLM的关键设计包括:1) 使用预训练的视觉-语言模型作为骨干网络,例如CLIP;2) 使用光流估计方法,例如RAFT,计算视频帧之间的光流信息;3) 设计了一种特征融合策略,例如将视觉特征和光流特征进行拼接或相加;4) 使用交叉熵损失函数或Focal Loss来训练模型,以克服类别不平衡问题;5) 使用数据增强技术,例如随机裁剪、旋转和缩放,来提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TransVLM在镜头过渡检测任务上取得了显著的性能提升,超越了传统的启发式方法、专门的时空网络以及顶级的视觉-语言模型。实验结果表明,TransVLM能够更准确地检测和定位各种类型的镜头过渡,尤其是在处理复杂的过渡时表现出色。该方法已成功部署到生产环境中。

🎯 应用场景

TransVLM可应用于视频编辑、视频摘要、视频检索、内容审核等领域。通过准确检测镜头过渡,可以提高视频编辑的效率和质量,生成更精确的视频摘要,实现更有效的视频检索,并自动识别视频中的不良内容。该研究对提升视频理解和处理能力具有重要意义。

📄 摘要(原文)

Traditional Shot Boundary Detection (SBD) inherently struggles with complex transitions by formulating the task around isolated cut points, frequently yielding corrupted video shots. We address this fundamental limitation by formalizing the Shot Transition Detection (STD) task. Rather than searching for ambiguous points, STD explicitly detects the continuous temporal segments of transitions. To tackle this, we propose TransVLM, a Vision-Language Model (VLM) framework for STD. Unlike regular VLMs that predominantly rely on spatial semantics and struggle with fine-grained inter-shot dynamics, our method explicitly injects optical flow as a critical motion prior at the input stage. Through a simple yet effective feature-fusion strategy, TransVLM directly processes concatenated color and motion representations, significantly enhancing its temporal awareness without incurring any additional visual token overhead on the language backbone. To overcome the severe class imbalance in public data, we design a scalable data engine to synthesize diverse transition videos for robust training, alongside a comprehensive benchmark for STD. Extensive experiments demonstrate that TransVLM achieves superior overall performance, outperforming traditional heuristic methods, specialized spatiotemporal networks, and top-tier VLMs. This work has been deployed to production. For more related research, please visit HeyGen Research (https://www.heygen.com/research) and HeyGen Avatar-V (https://www.heygen.com/research/avatar-v-model). Project page: https://chence17.github.io/TransVLM/