Dynamic and Compressive Adaptation of Transformers From Images to Videos

📄 arXiv: 2408.06840v2 📥 PDF

作者: Guozhen Zhang, Jingyu Liu, Shengming Cao, Xiaotong Zhao, Kevin Zhao, Kai Ma, Limin Wang

分类: cs.CV

发布日期: 2024-08-13 (更新: 2024-08-14)


💡 一句话要点

提出InTI,通过动态帧间Token插值实现Transformer从图像到视频的压缩自适应。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 视频理解 Transformer 帧间插值 计算压缩 动态自适应

📋 核心要点

  1. 现有图像到视频Transformer自适应方法对每帧进行完整前向传播,计算开销巨大。
  2. InTI通过动态帧间Token插值,自适应地压缩相邻帧的信息,减少处理帧数,降低计算复杂度。
  3. InTI与现有方法集成后,在Kinetics-400上达到87.1%的top-1准确率,GFLOPs降低37.5%。

📝 摘要(中文)

本文提出了一种名为InTI的创新方法,用于压缩图像到视频的Transformer自适应,该方法利用动态帧间Token插值。InTI旨在柔和地保留信息丰富的tokens,同时不破坏其连贯的时空结构。具体来说,相邻帧内相同位置的每个token对被线性聚合为一个新的token,聚合权重由多尺度上下文感知网络生成。通过这种方式,相邻帧的信息可以逐点自适应地压缩,从而有效地将处理的帧数每次减少一半。重要的是,InTI可以与现有的自适应方法无缝集成,在没有额外复杂设计的情况下实现强大的性能。在Kinetics-400数据集上,与朴素自适应相比,InTI达到了87.1%的top-1准确率,并且GFLOPs显著降低了37.5%。当与额外的时间模块结合使用时,InTI实现了87.6%的top-1准确率,GFLOPs降低了37%。类似结论已在其他常见数据集中得到验证。

🔬 方法详解

问题定义:现有基于Transformer的图像到视频自适应方法,通常需要对视频的每一帧都进行完整的Transformer前向计算,导致计算量巨大,难以应用到长视频或资源受限的场景中。因此,如何降低视频Transformer的计算复杂度是一个重要的研究问题。

核心思路:InTI的核心思路是通过动态地融合相邻帧的token信息,减少需要处理的帧数,从而降低计算复杂度。它没有直接丢弃某些帧,而是通过token插值的方式,保留了关键信息,同时压缩了数据量。这种方法旨在保持视频的时空连贯性,避免信息丢失。

技术框架:InTI的主要流程如下:首先,对于相邻的两帧,提取它们在相同位置的token对。然后,使用一个多尺度上下文感知网络来生成聚合权重。最后,使用这些权重对token对进行线性聚合,生成新的token。这个过程有效地将两帧的信息压缩成一帧,从而减少了后续处理的帧数。InTI可以无缝集成到现有的图像到视频Transformer架构中。

关键创新:InTI的关键创新在于动态帧间Token插值。与简单的帧采样或token选择方法不同,InTI通过学习到的权重,自适应地融合相邻帧的信息。这种方法能够更好地保留视频的时空结构,避免信息丢失,同时有效地降低计算复杂度。多尺度上下文感知网络的设计也是一个创新点,它能够更好地捕捉视频中的时空关系。

关键设计:InTI的关键设计包括:1) 多尺度上下文感知网络:该网络用于生成token聚合权重,它考虑了不同尺度的上下文信息,以更好地捕捉视频中的时空关系。2) 线性聚合:使用学习到的权重对token对进行线性聚合,生成新的token。3) 无缝集成:InTI可以很容易地集成到现有的图像到视频Transformer架构中,无需修改原始架构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InTI在Kinetics-400数据集上取得了显著的性能提升。与朴素的图像到视频自适应方法相比,InTI在top-1准确率上达到了87.1%,同时GFLOPs降低了37.5%。当与额外的时间模块结合使用时,InTI的top-1准确率达到了87.6%,GFLOPs降低了37%。这些结果表明,InTI能够有效地降低计算复杂度,同时保持甚至提高视频理解的性能。

🎯 应用场景

InTI可应用于各种视频理解任务,如视频分类、动作识别、视频摘要等。其降低计算复杂度的特性,使其更适用于长视频处理和资源受限的设备。该研究有助于推动视频智能在移动设备、嵌入式系统等领域的应用,并为未来的视频分析算法设计提供新的思路。

📄 摘要(原文)

Recently, the remarkable success of pre-trained Vision Transformers (ViTs) from image-text matching has sparked an interest in image-to-video adaptation. However, most current approaches retain the full forward pass for each frame, leading to a high computation overhead for processing entire videos. In this paper, we present InTI, a novel approach for compressive image-to-video adaptation using dynamic Inter-frame Token Interpolation. InTI aims to softly preserve the informative tokens without disrupting their coherent spatiotemporal structure. Specifically, each token pair at identical positions within neighbor frames is linearly aggregated into a new token, where the aggregation weights are generated by a multi-scale context-aware network. In this way, the information of neighbor frames can be adaptively compressed in a point-by-point manner, thereby effectively reducing the number of processed frames by half each time. Importantly, InTI can be seamlessly integrated with existing adaptation methods, achieving strong performance without extra-complex design. On Kinetics-400, InTI reaches a top-1 accuracy of 87.1 with a remarkable 37.5% reduction in GFLOPs compared to naive adaptation. When combined with additional temporal modules, InTI achieves a top-1 accuracy of 87.6 with a 37% reduction in GFLOPs. Similar conclusions have been verified in other common datasets.