DGME-T: Directional Grid Motion Encoding for Transformer-Based Historical Camera Movement Classification
作者: Tingyu Lin, Armin Dadras, Florian Kleber, Robert Sablatnig
分类: cs.CV, cs.AI, eess.IV
发布日期: 2025-10-17
备注: 9 pages, accepted at ACMMM2025 SUMAC
🔗 代码/项目: GITHUB
💡 一句话要点
提出DGME-T,通过方向网格运动编码增强Transformer在历史影像镜头运动分类中的鲁棒性
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 镜头运动分类 历史影像分析 Transformer 光流 运动编码 视频理解 跨域学习
📋 核心要点
- 现有镜头运动分类模型在处理历史影像时,由于噪声、丢帧等问题,性能显著下降。
- DGME-T通过引入方向网格运动编码,并采用可学习的后期融合层,增强了模型对运动信息的感知能力。
- 实验表明,DGME-T在现代和历史影像上均取得了显著的性能提升,尤其是在历史影像上。
📝 摘要(中文)
本文针对在现代高质量视频上训练的镜头运动分类(CMC)模型应用于历史影像时性能下降的问题,历史影像通常存在噪声、丢帧和低对比度等问题,导致运动线索模糊。为了解决这个问题,我们构建了一个统一的基准,将两个现代语料库整合为四个标准类别,并将HISTORIAN数据集重构为五个平衡类别。在此基础上,我们提出了DGME-T,它是Video Swin Transformer的一个轻量级扩展,通过可学习和归一化的后期融合层注入从光流中提取的方向网格运动编码。DGME-T在现代视频片段上的top-1准确率从81.78%提高到86.14%,宏F1从82.08%提高到87.81%,同时在二战时期影像上的准确率从83.43%提高到84.62%,宏F1从81.72%提高到82.63%。跨域研究进一步表明,在现代数据上进行中间微调阶段可将历史影像的性能提高五个百分点以上。这些结果表明,结构化运动先验和Transformer表示是互补的,即使是一个小的、经过仔细校准的运动头也可以显著提高退化影像分析的鲁棒性。相关资源可在https://github.com/linty5/DGME-T获取。
🔬 方法详解
问题定义:论文旨在解决镜头运动分类任务在历史影像上的性能瓶颈。现有方法在现代高质量视频上表现良好,但直接应用于历史影像时,由于噪声、低对比度、丢帧等问题,导致运动信息难以提取,模型泛化能力不足。
核心思路:核心思路是通过引入结构化的运动先验知识,即方向网格运动编码(DGME),来增强模型对运动信息的感知能力。DGME从光流中提取,能够有效地捕捉视频中的运动模式。同时,采用Transformer架构来建模视频的时序关系。
技术框架:DGME-T基于Video Swin Transformer架构,主要包含以下几个模块:1) 视频帧输入;2) Video Swin Transformer backbone提取视觉特征;3) 光流计算模块,计算连续帧之间的光流信息;4) 方向网格运动编码(DGME)模块,从光流中提取运动特征;5) 可学习的后期融合层,将视觉特征和运动特征进行融合;6) 分类器,输出镜头运动的类别。
关键创新:关键创新在于方向网格运动编码(DGME)的引入和可学习的后期融合层。DGME能够有效地捕捉视频中的运动模式,为模型提供结构化的运动先验知识。可学习的后期融合层能够自适应地调整视觉特征和运动特征的权重,从而更好地融合两种模态的信息。与现有方法相比,DGME-T能够更好地处理历史影像中的噪声和低质量问题。
关键设计:DGME模块将光流场划分为网格,并计算每个网格内的平均运动方向和幅度。这些运动信息被编码成向量,作为运动特征。可学习的后期融合层采用一个小的全连接网络,将视觉特征和运动特征映射到同一维度空间,然后进行加权融合。权重通过反向传播进行学习。损失函数采用交叉熵损失函数。
📊 实验亮点
DGME-T在现代视频片段上的top-1准确率从81.78%提高到86.14%,宏F1从82.08%提高到87.81%。在二战时期影像上的准确率从83.43%提高到84.62%,宏F1从81.72%提高到82.63%。跨域实验表明,在现代数据上进行中间微调阶段可将历史影像的性能提高五个百分点以上。
🎯 应用场景
该研究成果可应用于历史影像资料的自动分类和分析,例如,对历史电影、纪录片等进行镜头运动分析,从而更好地理解影像内容,提高影像检索和管理效率。此外,该方法也可推广到其他低质量视频的分析任务中,例如监控视频分析。
📄 摘要(原文)
Camera movement classification (CMC) models trained on contemporary, high-quality footage often degrade when applied to archival film, where noise, missing frames, and low contrast obscure motion cues. We bridge this gap by assembling a unified benchmark that consolidates two modern corpora into four canonical classes and restructures the HISTORIAN collection into five balanced categories. Building on this benchmark, we introduce DGME-T, a lightweight extension to the Video Swin Transformer that injects directional grid motion encoding, derived from optical flow, via a learnable and normalised late-fusion layer. DGME-T raises the backbone's top-1 accuracy from 81.78% to 86.14% and its macro F1 from 82.08% to 87.81% on modern clips, while still improving the demanding World-War-II footage from 83.43% to 84.62% accuracy and from 81.72% to 82.63% macro F1. A cross-domain study further shows that an intermediate fine-tuning stage on modern data increases historical performance by more than five percentage points. These results demonstrate that structured motion priors and transformer representations are complementary and that even a small, carefully calibrated motion head can substantially enhance robustness in degraded film analysis. Related resources are available at https://github.com/linty5/DGME-T.